신경과학-인공지능 융합 연구로 성능-효율-속도 균형 설계, 협력-경쟁 선택 등 공학적 난제의 해소 가능성이 열렸다.

KAIST 바이오및뇌공학과 이상완 교수 연구팀이 영국 케임브리지 대학, 구글 딥마인드와의 공동 연구를 통해 차세대 뇌 기반 인공지능 시스템 설계의 방향을 제시했다. 신경과학 기반 ‘전두엽 메타 제어’ 강화학습 이론은 새로운 인공지능 알고리즘 설계에 긍정적인 영향을 줄 것으로 기대된다.

이상완 교수와 함께 이지항 박사, 안수진 박사과정이 주도한 이번 연구는 국제 학술지 사이언스 자매지 ‘사이언스 로보틱스(Science Robotics)’ 1월 16일 자 온라인판에 포커스 형식으로 게재됐다.

최적제어 이론에서 출발한 강화학습은 기계 학습의 한 영역으로 지난 20여 년 동안 꾸준히 연구된 분야이다. 특히 지난 5년 동안은 딥러닝 기술을 발전과 맞물려 급격한 성장을 이뤘다.

딥러닝 기반 강화학습 알고리즘은 최근 알파고와 같은 전략 탐색 문제, 로봇 제어, 응급실 비상 대응 시스템과 같은 의료 진단 등 다양한 분야에 적용되고 있다. 그러나 주어진 문제에 맞게 시스템을 설계해야 하는 점, 불확실성이 높은 환경에서는 성능이 보장되지 않는 점 등이 근본적인 해결책으로 남아있다.

강화학습은 의사 결정 및 계산신경과학 분야에서도 지난 20년간 꾸준히 연구되고 있다. 이상완 교수는 2014년 인간의 전두엽-기저핵 뇌 회로에서 이종 강화학습을 제어한다는 신경과학적 증거를 학계에 발표한 바 있다. 2015년에는 같은 뇌 회로에서 고속 추론 과정을 제어한다는 연구를 발표했다.

외부 환경에 따라 성능-효율-속도 문제 균형점을 찾는 뇌기반 강화학습 이론 (좌), 이를 최적 제어하는 ‘전두엽 메타 제어’(중) 및 로보틱스 분야 문제 해결 적용 사례 (우).

연구팀은 이번 연구에서 강화학습 등의 개별 인공지능 알고리즘이 해결하지 못하는 공학적 문제를 인간의 두뇌가 이미 해결하고 있다는 사실에 기반한 ‘전두엽 메타 제어’ 이론을 제안했다.

중뇌 도파민-복외측전전두피질 네트워크에서 외부 환경에 대한 학습의 신뢰도를 스스로 평가할 수 있는 보상 예측 신호나 상태 예측 신호와 같은 정보를 처리하며, 인간의 두뇌는 이 정보들을 경쟁적-협력적으로 통합하는 프로세스를 통해 외부 환경에 가장 적합한 학습 및 추론 전략을 찾는다는 것이 이론의 핵심이다.

이러한 원리를 단일 인공지능 알고리즘이나 로봇설계에 적용하면 외부 상황변화에 강인하게 성능, 효율, 속도 세 조건(performance-efficiency-speed tradeoff) 사이의 균형점을 유지하는 최적의 제어 시스템을 설계할 수 있다. 다수의 인공지능 개체가 협력하는 상황에서는 서로간 전략을 이용, 협력-경쟁 사이의 균형점을 유지할 수 있다.

1 저자인 이지항 박사는 “현대 인공지능의 우수한 성능은 사람의 행동 수준 관찰뿐 아니라 두뇌의 저수준 신경 시스템을 알고리즘으로 구현해 적극적으로 발전시킨 결과라고 보고 있다”라며 “이번 연구는 계산신경과학에 기반한 결과로 현대 딥러닝과 강화학습에서 겪는 성능, 효율, 속도 사이의 난제를 해결하는 실마리가 될 수 있고, 새로운 인공지능 알고리즘 설계에 많은 영감을 줄 것이다”라고 말했다.

이상완 교수는 “연구를 하다 보면 우리의 두뇌는 공학적 난제를 의외로 쉽게 해결하고 있음을 알 수 있다. 이 원리를 인공지능 알고리즘 설계에 적용하는 뇌 기반 인공지능 연구는 구글 딥마인드, MIT, 캘리포니아 공과대학, UCL 등 해외 유수 기관에서도 관심을 두는 신경과학-인공지능 융합 연구 분야”라며 “장기적으로는 차세대 인공지능 핵심 연구 분야 중의 하나로 자리를 잡을 것으로 기대한다”라고 말했다.

이번 연구는 과학기술정보통신부 및 정보통신기술진흥센터 연구개발 사업, 삼성전자 미래기술육성센터의 지원을 받아 수행됐다.

*논문
Toward high-performance, memory-efficient, and fast reinforcement learning—Lessons from decision neuroscience

*저자
JEE HANG LEE, BEN SEYMOUR, JOEL Z. LEIBO, SU JIN AN, SANG WAN LEE

*상세 연구내용

계산신경과학 최신 연구들에 따르면, 인간의 강화학습은 ‘전두엽 메타 제어’를 통해 다양한 학습 시스템을 경쟁적/협력적으로 운용하여, 제한된 경험과 두뇌 자원 아래 외부 환경에 따라 학습 및 의사 결정과정의 최적 균형점을 찾아간다고 알려져 있다.

이를 위해, 첫째, 인간은 다양한 학습 전략 시스템을 사용한다. 반복적인 성공/실패 경험을 통해 학습하는 model-free 학습 전략 시스템은 습관적인 행동 전략 형성에 기여한다고 알려져 있다. 빠른 속도와 효율로 외부 환경의 문제를 해결할 수 있지만 이러한 행동을 학습하는 데 많은 시간과 경험을 필요로 하며, 외부 환경 변화에 취약하다. 이와 반대로 목적 지향적 의사 결정은 model-based 학습 전략 시스템에 의해 형성된다. 이 시스템은 보통 환경의 구조를 재빨리 배운 후 문제를 해결할 수 있는 옵션들을 계획하고 수행하는 행동 패턴을 보인다. 이는 model-free에 비해 많은 인지 부하를 요구하지만 환경이 변화했을 때 재빨리 적응할 수 있는 기회를 제공한다. 상기 model-free 및 model-based 학습 전략은 학습과 의사결정 성능과 효율 사이의 균형점을 찾는데 필수적이다.

둘째, 인간은 다양한 추론 시스템 또한 사용한다. 일반적으로 인간은 반복적으로 수행하여 얻은 많은 양의 경험을 바탕으로 외부 환경 인자에 대한 인과 관계를 점진적으로 추론하고 학습한다 (점진적 추론, Incremental inference). 반면, 아주 특별한 경험은 인간 두뇌의 학습 효율을 급격하게 증가시켜, 단 한번 관찰만으로도 고속 추론을 통해 완전하게 학습하는 특징을 보인다 (고속 추론, One-shot inference). 이러한 점진적 학습과 고속 학습은 학습 및 의사결정 성능과 속도 사이의 균형점을 찾는데 중요한 역할을 한다.

셋째, 이 같은 다양한 학습 전략 및 추론 시스템은 ‘전두엽 메타 제어’에 의해서 성능-효율-속도 문제를 해결하도록 제어된다. 이는 보통 현재 처해진 환경 아래에서 인간의 학습 및 추론 전략 시스템의 신뢰도를 통해 제어되는 특징을 갖는다. 만일 환경이 급격하게 자주 변하는 환경이라면 model-free 시스템은 낮은 성능을 보일 것이고, 따라서 이 시스템의 신뢰도는 매우 낮을 것이다. 이 경우 ‘전두엽 메타 제어’ 시스템은 model-based 시스템을 주로 사용, 효율은 낮지만 높은 성능을 확보하고자 한다. 반면 환경 변화가 적고 안정적인 경우에는 굳이 외부 환경 변화에 대해 학습할 이유가 없으므로 좀 더 효율적인 model-free 시스템을 선택한다.

외부 환경에 대해 학습할 때에는, 특정 환경 인자에 대해 불확실성이 높은 경우 두뇌는 해당 환경 인자에 대해 높은 학습 효율을 부여하고 고속 추론을 사용하지만, 외부 환경 인자 모두에 대해 불확실성이 높은 경우에는 반복적으로 이를 해소하는 점진적 추론을 선택한다. 이와 같이, ‘전두엽 메타 제어’는 상기 의사 결정 신뢰도, 정보 추론 불확실성과 같은 정보들을 경쟁적-협력적으로 통합하는 프로세스를 통해 학습 성능-효율-속도의 최적 균형점을 찾는 중요한 역할을 수행한다.

위와 같은 인간 두뇌의 특징은 다양한 개체가 서로 상호작용하는 사회 내에서 공동의 문제를 해결하기 위한 사회적 의사 결정 과정에 영향을 미친다. 예를 들어 대부분의 사회적 딜레마들은 경쟁과 협력이 동시에 적정 수준으로 수행돼야 최적의 해결책을 도출할 수 있다. 다수의 인공 지능 개체가 서로 협력하는 상황에 인간 두뇌에서 발견되는 학습 전략 (model-based와 model-free)을 적절히 사용하면 언제 협력-경쟁하거나, 이기적-이타적 행동을 취해야 하는지 효과적으로 도출해 나가는 것을 확인할 수 있다.

다양한 인공지능 개체들은 model-based 학습 전략 아래, 사회적 딜레마에서 해결해야 하는 게임 및 환경을 먼저 잘 배운 후, 환경의 변화와 상대방의 전략 변화에 따라 사용 가능한 옵션들을 시뮬레이션하여 학습하고, 이를 통해 최적의 협력-경쟁 혹은 이기적-이타적 전략을 결정하여 수행하는 패턴을 보인다. 혹은 model-based의 특징을 이용하여 다른 개체들의 학습 과정 자체를 학습하고, 자신이 취한 전략이 이들의 행동에 어떤 영향을 주는 지 확인한 후 자신의 전략을 결정하고 수행하는데, 이러한 전략들이 딜레마에 처한 인간의 행동 전략을 성공적으로 설명해 내기도 한다.

마지막으로 인간은 ‘메타 인지’ 과정이라 일컫는 자신의 학습 및 의사 결정에 대한 신뢰도를 평가할 수 있는 능력을 지니고 있다. 예를 들어, 단순하고 쉬운 환경에서 문제를 해결하는 경우 인간은 높은 확신으로 결단력있게 결정하고 행동할 수 있지만, 그 반대의 경우에는 상대적으로 낮은 확신을 가지고 조심스럽게 결정하고 행동하는 행태를 보인다. 이러한 특질은 복잡하고 변화가 심한 환경에서도 환경에서 의사 결정/예측의 정확성을 유지하는 근간이 된다.

현대 로보틱스에서 의사 결정/예측은 환경을 얼마나 오래동안 탐색하여 학습하고, 어느 시점부터 결정을 내려 과업 수행을 위한 행동을 해야 하는지 그 지점을 찾는 것이 매우 중요한데, 인간의 ‘메타 인지’ 메커니즘은 탐색-수행 결정 문제를 형식화하고 해결하는 단초가 될 수 있다.