기계 학습(Machine learning )은 금융 시장의 움직임을 예측하는 데 사용되는 수학적 도구의 효과를 평가할 수 있다.

코넬대 연구원들이 개발한 모델은 시장의 방대한 양의 정보와 높은 변동성으로 인해 매우 어려운 작업인 미래 시장 움직임을 예측할 수 있다.

마우린 오하라(Maureen O’Hara) 코넬대 교수는 ‘The Review of Financial Studies’에 7월 7일에 발표된 “기계 시대의 마이크로스트럭처(Microstructure in the Machine Age)”의 공동 저자다.

오하라는 “데이터베이스가 너무 크기 때문에 표준 기술을 사용하여 이러한 종류를 추정하는 것은 매우 까다롭다. 머신 러닝의 장점은 데이터를 분석하는 다른 방법이라는 것”이라며 “핵심은 어떤 경우에는 하나의 계약에 연결된 이러한 미세 구조 기능이 매우 강력하여 다른 계약의 움직임을 예측할 수 있다는 것이다. 따라서 시장이 다른 시장에 미치는 영향의 패턴을 파악할 수 있다. 표준 도구를 사용하는 것은 매우 어렵다”고 말했다.

시장은 방대한 양의 데이터를 생성하며, 미래의 시장 행동을 조명하기 위해 패턴에 대한 데이터를 마이닝하는 데 수십억 달러가 걸려 있다. 월스트리트 및 기타 지역의 금융회사는 다양한 알고리즘을 사용하여 다양한 변수와 요인을 조사, 이러한 패턴을 찾고 미래를 예측한다.

이 연구에서 연구원들은 이러한 모델 중 일부의 효과를 더 잘 이해하기 위해 랜덤 포레스트(random forest) 머신러닝 알고리즘을 사용했다. 그들은 87개의 선물 계약 데이터 세트(미래에 미리 정해진 가격으로 자산을 사고 팔 겠다는 계약)를 사용해 도구를 평가했다.

오하라는 “우리의 샘플은 기본적으로 5년 동안 전 세계의 모든 선물 계약이며, 우리는 분석에서 모든 단일 거래(수천만 건)를 사용했다. 우리는 기계 학습을 사용하여 덜 복잡한 시장 설정을 위해 개발된 마이크로스트럭처 도구가 계약 내에서, 그리고 계약 전체에서 집합적으로 미래 가격 프로세스를 예측하는 데 얼마나 잘 작동하는지 이해하려고 노력했다. 일부 변수는 매우 잘 작동했고, 일부는 그렇게 좋지 않다”고 말했다.

이 기계 학습 접근 방식에서 배운 것을 어떻게 사용하여 더 나은 모델을 구축하고 너무 복잡해서 모델링할 수 없는 것들을 이해하도록 도울 수 있을까.

막대한 양의 과거 시장 데이터가 도움을 줄 수 있다. 1980 년대 이후 모든 거래가 기록됐고, 매일 방대한 양의 정보가 생성된다. 컴퓨팅 성능이 향상되고 데이터 가용성이 높아짐에 따라보다 세밀하고 포괄적 분석을 수행 할 수 있었지만 이러한 데이터 세트와 이를 분석하는 데 필요한 컴퓨팅 성능은 엄청나게 많은 비용이 든다.

이 연구에서는 금융 업계 실무자들이 학술 연구자들과 협력하여 연구를위한 데이터와 컴퓨터, 실제로 사용되는 기계 학습 알고리즘에 대한 전문 지식을 제공했다.

*David Easley et al, Microstructure in the Machine Age, The Review of Financial Studies (2020). DOI: 10.1093/rfs/hhaa078