IBM이 의약품 개발과 의료목적 인공지능(AI) 시스템 판매를 사실상 중단하기 한 것으로 알려졌다.

미국 ‘stat’는 IBM이 내부적으로 의약품 개발을 위한 왓슨(Watson for drug discovery) AI시스템 판매 중단을 결정했다고 보도했다. 미국전기전자학회(IEEE) 메거진(IEEE Spectrum) 심층분석 결과 관련 서비스의 효과가 없다고 결론 내린 직후다. 지난해부터 관련 서비스 품질과 판매 부진 논란이 있어 왔다.

이에 대해 IBM은 사업 촛점을 왓슨 헬스 관련 분야로 집중하기 위함이며 중단은 아니라고 해명했다.

인공지능(AI)을 활용한 새로운 의약품 및 치료법 개발 등 큰 기대를 모았던 왓슨 AI 의료 시스템이 효과가 없다는 것이 드러나고, 암 치료에 부적절하다는 보고가 나오면서 문제가 발생했다.

IBM은 판매 부진이 판매를 철회한 이유라고 언급하고 있지만 더 심각한 문제는 잠재적 책임이다.

최근 전기전자학회 메거진 ‘IEEE Spectrum’의 심층 분석은 결론적으로 수년간의 노력과 수많은 프로젝트에도 불구하고 IBM은 그에 대해 성과를 거의 보여주지 못했다는 것을 지적했다. IBM AI 왓슨에 대한 적극적인 마케팅을 우선하며 시스템이 실제로 달성할 수 있는 수준보다 업적을 과장했다는 것.

가트너 하이프 사이클(hype-cycle)은 인공지능(AI) 기술과 기대 수준을 제시한다.

왓슨은 2011년 퀴즈쇼 제퍼디(Jeopardy)우승에 대한 성과, 단어 간의 관계를 분석 할 수 있는 능력으로 세계를 놀라게했다. 이론적으로 왓슨은 비슷한 방식으로 의료 데이터의 종류를 분류하고 원하는 결과를 산출할 수 있지만 현실은 그렇지 못했다.

IBM 왓슨과 관련된 연구 중 환자에 도움이 됐다는 보고는 한건도 없었다. IEEE는 왓슨 AI 시스템을 의료에 도입하면서 AI가 의학 텍스트와 용어를 이해하지 못하는 난제에 직면했다고 말한다.

몬트리올대학 수석 AI연구원 조슈아 벤지오(Yoshua Bengio) 교수는 자연어 처리(natural-language processing,NLP)에 대해 “5년 전과 비교하면 NLP는 믿을 수 없을 정도로 잘 수행하고 있지만 아직은 인간에 비하면 매우 부족하다”고 말했다.

문제는 왓슨이 효과가 없다는 것이 아니라 올바른 결과 조차 산출하지 못했다는 점이다. 방대한 양의 데이터를 신속하게 처리하지만 의사에게 실제 치료에서 도움이 되는 정보를 제공하지 못했다.

왓슨이 환자 기록을 이해하는 데 어려움을 겪는 이유는 먼저 환자 데이터가 올바른 형식으로 정제되거나 시간 순으로 정렬되지 않았기 때문이다. 또 이 시스템은 새로운 암 환자와 이전 환자의 데이터베이스를 비교할 수 없어서 숨겨진 치료 패턴을 발견 할 수 없었다.

무엇보다 증거 기반을 갖추지 못했다. 증거기반 의학에서 강력한 치료 방안을 제시하려면 여러 유형의 환자 간에 유사성을 발견했다고 주장하는 이중맹검 연구, 메타분석 및 체계적인 증거 검토가 필요하다. 현시점에서 왓슨 AI 시스템으로는 부족하다.

왓슨(Watson)의 다음 목표는 무엇인지 명확하지 않다. 이 도구는 모호성이 적은 좁은 맞춤형 응용 프로그램에서 성공을 거두었다. 그러나 많은 계획, 기술적 과장과 막대한 투자에도 불구하고 IBM 의약품 개발을 위한 왓슨(Watson for Drug Discovery)이 자체 목표를 달성하지 못했다는 것은 분명하다.

이에 대해 IBM 대변인은 의약품 발견을 위한 왓슨을 완전히 중단한 것은 아니라고 해명했다. 왓슨 헬스(Watson Health) 관련 비즈니스 기회가 많은 인접 분야에 데이터와 AI 자원을 집중하기 위한 결정이라는 설명이다.

또 IBM은 왓슨 헬스가 노력 대비 성과를 거의 보여주지 못했다는 주장에 이의를 제기했다. 암 치료가 매우 어렵고 의학적 진보가 느리다는 해명이지만 특별한 근거는 제시하지 못했다.

가천 길병원의 경우 656명의 대장암 환자에 대한 AI 왓슨 권고 사항에 대한 일치율이
49% 수준으로 나타났다. credit:IEEE Spectrum.

관건은 IBM이 암 연구에 효과적인 결과를 산출했는지 여부다. 지난해 가천 길병원 등 이 제품을 사용한 의료 기관들의 만족도는 부정적이었다. 적어도 마케팅 부서에서 약속 한 수준의 성능에는 크게 못미친 실망스러운 수준이라는 지적이다.

IEEE는 IBM AI의 가장 큰 성과가 특정 용도의 잘 이해된 좁은분야(narrow AI)에서 이뤄졌다고 말했다.