컴퓨터 과학자 및 생물학자 팀은 머신러닝(machine learning)을 사용해 29개의 서로 다른 COVID-19 DNA 서열에 대한 기본 게놈 시그니처를 확인했다.

이 새로운 데이터 검색 도구를 통해 연구자들은 COVID-19와 같은 치명적인 바이러스를 몇 분만에 쉽고 빠르게 분류할 수 있었다. 이는 감염병 대유행 동안 전략적 계획과 의료적 요구를 충족하는 데 매우 중요한 과정과 속도다.

이 연구는 또한 COVID-19(SARS-CoV-2)가 베타 코로나 바이러스의 하위 그룹 사르베코바이러스(Sarbecovirus)로서 박쥐에서 기원한다는 과학적 가설을 지지한다.

이번 연구 결과는 ‘새로운 병원체의 빠른 분류를 위해 고유한 게놈 시그니처를 사용한 머신러닝 : COVID-19 사례 연구’로 ‘PLOS ONE’에 24일(현지시각)발표됐다.

‘초고속, 확장성 및 고정밀’ 분류 시스템은 새로운 그래픽 기반의 특수 소프트웨어 및 의사 결정 트리 접근 방식을 사용해 분류를 설명하고 가능한 모든 결과 중에서 최상의 선택에 도달한다. 새로운 그래픽 기반의 특수 소프트웨어를 사용해 테스트 가능한 모든 결과 중에서 최상의 선택을 보여준다.

웨스턴온타리오 대학 (University of Western Ontario) 캐슬린 힐 (Kathleen Hill) 생물학 교수는 워털루대 연구진과 함께 컴퓨터 과학 및 통계 및 보험 계리 과학 분야의 협력자들과 연구를 공동으로 진행했다.

기계 학습 방법은 COVID-19 서열의 100 % 정확한 분류를 달성하며, 더욱 중요한 것은 수분 내에 5,000 개 이상의 바이러스 게놈 사이에서 가장 관련성이 높은 관계를 다시 발견했다.

힐은 “우리가 필요로 하는 것은 COVID-19 DNA 서열 만으로도 고유 패턴을 발견 할 수있었다. 우리는 그 서명 패턴과 논리적 접근 방식을 사용해 해당 패턴을 다른 바이러스에 최대한 가깝게 맞추고 몇 분 안에 미세한 분류 수준을 달성했다”고 말했다.

이 분류 도구는 이미 1월 27일에 이용 가능한 29 개의 COVID-19 서열을 포함하여 5,000 개가 넘는 독특한 바이러스 게놈 서열을 분석하는 데 사용됐다.

힐은 새로 발견된 바이러스 서열 COVID-19를 분류 할 수 있는 이 도구가 백신 및 약물 개발자, 의료진, 연구자 및 과학자들에게 대유행 동안 툴 킷의 필수 구성 요소가 될 것이라고 믿고 있다.

*Gurjit S. Randhawa et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens: COVID-19 case study, PLOS ONE (2020). DOI: 10.1371/journal.pone.0232391