인공지능이 이미지 기반 의료진단에서 인간과 동등한 수준에 달했다는 연구가 나왔다.

의료 분야에서 인공지능(AI)은 의사와 환자의 상호작용을 위한 시간을 확대, 맞춤형 치료 개잘 등 잠재력을 인정받고 있다. 이에 지난 달 영국 정부는 새 NHS(The National Health Service) 인공지능 연구소에 2억 5천만 파운드(한화 3조7362억여원)의 기금을 발표했다.

의료 이미지 해석 AI는 기계학습(machine learning) 한 분야인 심층학습(deep learning)얼 통해 데이터 세트의 분류된 이미지를 알고리즘 훈련으로 유사한 특징을 추출하는 이미지 분류과정이다. 이 접근법은 암에서 눈 상태까지의 질병 진단에 대한 가능성을 보여주었다.

딥러닝 시스템의 인간 전문가 수준 기술 도달 여부 측정 방법이 의문이었다. 연구자들은 이 문제에 관한 최초의 포괄적 검토를 수행, 인간과 기계가 동등한 수준이라고 확인했다.

24일(현지시각) 영국 일간매체 가디언에 따르면 연구의 공동저자로 NHS재단 트러스트 버밍엄 대학병원(University Hospitals Birmingham NHS) 알라스테어 데니스턴(Alastair Denniston) 교수는 그 결과가 고무적이지만 AI에 대한 과대 포장에 대한 현실적 수준 확인이라고 밝혔다.

연구의 수석 저자이자 동일한 NHS 트러스트 샤오슈안 류(Xiaoxuan Liu) 박사는 “AI가 인간보다 성능이 뛰어나다는 헤드라인이 많지만 우리의 메시지는 그것이 동등할 수 있다는 것”이라고 말했다.

의학저널 렌셋 디지털 헬스(Lancet Digital Health)에 논문을 발표한 이들은 2012년 이후 출판된 연구 논문에 중점을 두는 연구 방법을 택했다. 초기 검색으로 확인한 2만 개 이상의 관련 연구 중에서 인간 질병에 기초한 14건의 연구만이 양질의 데이터를 보고했다. 각각의 데이터 세트를 딥러닝 시스템 훈련 이미지로 테스트, 동일한 이미지를 인간 전문가에게 제시했다.

이 팀은 14개의 각 연구에서 가장 유망한 결과를 모아 딥러닝 시스템이 의료 전문가의 86 %와 비교하여 87 %의 질병 상태를 정확하게 감지했으며, 93% 수준에서 정확히 진단했다는 판단을 내렸다. 인간 전문가는 91 % 수준이었다. 시나리오에 따라 의료 전문가에게는 실제 상황에서 진단을 조정할 수 있는 추가 환자 정보가 제공되지 않았다.

케임브리지대(University of Cambridge) 윈튼(Winton) 센터장 데이비드 스피겔하터(David Spiegelhalter) 교수는 이 분야는 열악한 연구가 대부분이라고 말했다. 그는 “이 우수한 리뷰는 의학계에서 AI에 대한 엄청난 과대 포장이 거의 모든 평가 연구에서 애매한 품질을 모호하게한다는 것을 보여준다”며 “딥 러닝은 강력하고 인상적인 기술이 될 수 있지만 임상의와 커미셔너는 결정적인 질문을 해야 한다. 실제로 임상에 어떤 추가적 도움을 줄수 있는가라는 물음이다”라고 가디언에서 말했다.

데니스턴(Denniston)은 이러한 딥러닝 시스템이 진단 도구로 작용, 스캔 및 이미지의 백로그를 처리하는 데 도움이 될 수 있다며 헬스 케어에서 AI 잠재력에 대해 낙관했다. 류는 이미지를 해석할 전문가가 없는 곳에서 유용할 것이라고 말한다. 그는 임상에서 딥러닝 시스템을 사용해 현재 관행에 비해 환자 결과가 개선되는지 여부를 평가하는 것이 중요 할 것이라고 말했다. 덧붙여 이들은 이 같은 최신 연구 결과가 소수의 연구에 기반을 두고 있다고 경고했다.