오래된 과학논문 초록 수백만 개를 훈련한 기계학습(machine learning) 알고리즘은 완전히 새로운 과학적 발견을 할 수 있었다.

7월 3일 네이처에 발표된 연구에서 로렌스 버클리 국립 연구소(Lawrence Berkeley National Laboratory)의 연구원들은 인간이 놓친 연결을 확인하기 위해 과학 논문을 검토하는 워드2Vec(Word2Vec) 알고리즘을 사용했다. 알고리즘은 열을 에너지로 변환하고 많은 냉난방 용도에 사용되는 가능한 열전 소자(thermoelectric materials)에 대한 예측을 산출했다.

하지만 알고리즘은 재료 과학의 열전(thermoelectric)에 대한 정의를 알지 못했다. 단어의 연관성만을 사용해 알고리즘은 미래의 열전 재료에 대한 후보들을 제공할 수 있었다. 그 중 일부는 우리가 현재 사용하는 것보다 더 나을 수도 있다.

연구원 아누브 자인(Anubhav Jain)은 “그것은 재료 과학에 관한 어떤 논문도 읽을 수 있기 때문에 어떤 과학자도 할 수 없는 연결을 만들 수 있다”며 “때로는 연구자가 할 수 있는 일을 하기도 하고, 때로는 이러한 범학제적(cross-discipline) 연관성을 만들기도 한다”고 말했다.

알고리즘 훈련을 위해, 연구원들은 재료 과학과 관련된 330만 개 초록(abstracts)에 사용된 언어를 평가했고, 결국 약 50만 개의 단어들의 어휘로 끝났다. 개요를 Word2vec으로 훈련했다. Word2vec는 단어 사이의 관계를 분석하기 위해 기계 학습을 사용했다.

자인은 “이 Word2vec 알고리즘이 작동하는 방법은 각 단어를 제거하고 그 옆에 있는 단어들이 어떻게 될지를 예측하기 위한 신경망 모델을 훈련시키는 것”이라며 “단어에 신경망을 훈련시킴으로써 실제로 지식을 부여할 수 있는 단어의 표현을 얻게 된다”고 말했다.

이 알고리즘은 과학적 요약에서 발견되는 단어만을 사용해 주기율표와 분자의 화학적 구조와 같은 개념을 이해할 수 있었다. 알고리즘은 서로 가깝게 발견된 단어들을 연결, 개념을 정의하는 데 도움이 되는 관련 단어의 벡터를 만들었다. 어떤 경우에는 단어들이 열전 개념과 연관되어 있었지만 그들이 조사한 어떤 요약에서도 열전 개념으로 쓰인 적이 없었다. 지식의 이 격차는 사람의 눈으로 확인하기는 어렵지만, 알고리즘은 발견하기 쉽다.

미래 재료를 예측하는 능력을 보여준 후, 연구원들은 그들의 연구를 사실상 초기화했다. 그들은 최근의 자료들을 폐기하고 그들이 발생하기 전에 과학적 발견을 예측할 수 있는지 보기 위해 오래된 논문들에 대한 알고리즘을 실험했다. 다시 한번, 알고리즘이 작동했다.

한 실험에서, 연구원들은 2009년 이전에 발표된 논문만을 분석해 2012년에 발견되기 4년 전에 오늘날 가장 우수한 열전 물질 중 하나를 예측할 수 있었다.

기계학습의 이 새로운 적용은 재료과학을 뛰어넘는다. 특정 과학 데이터세트에 대해 훈련을 받지 않았기 때문에, 그것을 다른 분야에 쉽게 적용할 수 있다. 문학 등 원하는 다른 학문분야에 대해 그것을 재훈련할 수 있다.

이 연구의 주저자 바허 티토얀(Vahe Tshitoyan)은 “이 알고리즘은 비지도 학습으로 자체적인 연결을 구축한다”며 “의학적 연구나 약물 발견 같은 것에 이것을 사용할 수도 있을 것이다. 정보는 충분하며 (누구든) 모든 논문을 다 읽을 수 없기 때문에 우리는 아직 이런 연결고리를 만들지 못했을 뿐”고 말했다.