아미노산 서열로부터 단백질 접힘 구조를 유례없이 빠른 속도로 예측하는 인공지능(AI) 심층학습(deep learning) 접근법이 나왔다.

새로운 연구에서 하버드 의대 블라바트닉 연구소(HMS Blavatnik Institute) 과학자는 AI 심층학습을 사용해 이론적으로 아미노산 서열을 기반으로하는 단백질의 구조를 예측할 수 있다는 것을 제시했다.

심층학습은 동일한 정확도로 기존보다 백만 배 빠른 속도로 예측 작업을 개선 할 수 있다. HMS 시스템생물학자 모하메드 알큐레이시(Mohammed AlQuraishi)는 4월 17일 셀 시스템스(Cell Systems) 저널에 단백질 접힘 예측을 위한 AI활용 연구를 발표했다.

아미노산 서열이 3차원 단백질로 접히는 과정을 규명하는 것은 생명체가 탄생하는 토대로 진화의 비밀을 푸는 핵심이다. 이번 연구는 단백질 접힘 시뮬레이션을 혁명적 수준으로 가속화한 것.

단백질은 생명에 필요한 거의 모든 기본적인 생물학적 과정에 중요하다. 그들은 세포의 모양을 만들고 유지하는 것에서 세포 통신(cell communication)을 위한 신호와 수신기의 역할도 한다.

단백질은 아미노산의 긴 사슬로 구성돼 있다. 단백질 접힘(protein folding)은 단백질 사슬이 신속하고 재생산 가능한 방식으로 대개 생물학적으로 기능을 하는 본래의 3차원 구조를 획득하는 물리적 과정이다. 정확하게 접힌 3D 구조로 다른 분자와의 상호작용 등 다양한 작업을 수행한다.

그동안 DNA 염기쌍 서열에서 아미노산 서열이 어떻게 나올 수 있는지 컴퓨터 시뮬레이션에 성공한데 이어 아미노산 서열을 기초로 단백질이 어떻게 스스로 접히는지를 예측하는 방법도 발전을 거듭해 왔다.

HMS 시스템약리학(Systems Pharmacology)연구소 펠로우 알큐레이시는 “단백질 접힘은 지난 반세기 동안 생화학자에게 가장 중요한 문제 중 하나였으며, 이 접근법은 근본적으로 새로 방법”이라며 “우리는 단백질 접힘을 탐구할 수 있는 완전히 새로운 전망을 가지고 있다. 이제 막 연구에 착수했다”고 말했다.

단백질은 20여개의 아미노산으로 이루어진 라이브러리로 만들어졌다. 이러한 다른 아미노산은 단어, 문장, 단락 등으로 결합 될 수 있는 알파벳 문장과도 비교 할 수 있다. 다만 평면 페이지와는 달리 아미노산은 루프, 나선, 시트 및 트위스트 모형의 사슬로 공간을 차지하는 물리적 객체다.

40여 년 동안 과학자들의 과도한 노력에도 불구하고 이러한 복잡한 형상을 예측하기 위한 빠르고 비용 효율적인 방법은 없었다. AI는 아미노산 폴딩의 초고속 예측을 돕고 있다.

그럼에도 연구로 밝혀야할 부분은 방대하며 단백질의 규모와 범위 예측 방법론은 제한돼 있다. 알큐레이시는 “시퀀스(염기서열)을 취하고 모양을 밝히는 작업 자체는 설명하기에 용이하다. 단백질은 3차원 형태의 구조화되지 않은 문자열로 시작하며 문자열이 접힐 수 있는 방식은 방대하다. 단백질은 수천여 개의 아미노산으로 이뤄진 일정한 길이를 가지며 그 복잡성은 인간의 직감은 물론 가장 강력한 컴퓨터조차 처리 용량을 쉽게 초과한다”고 말했다.