인공지능(AI) 기술이 심화되면서 인간 수준의 범용 인공지능(artificial general intelligence, AGI)에 이르기 위한 연구 방법론 논쟁도 활발해지고 있다.

오늘날 딥러닝(Deep Learning) 기반 인공지능 연구의 새 지평을 연 얀 르쿤(Yann LeCun)과 AI분야 저자이자 신경과학자인 게리 마커스(Gary Marcus)가 트위터를 통해 논쟁을 이어가고 있다.

CNN(Convolution Neural Network)개념을 처음으로 제시한 르쿤(LeCun)은 논문(‘Gradient-based learning applied to document recognition’)에서 CNN이 필기체 인식에 있어 탁월한 효과가 있음을 입증했다. 이후 이 논문은 관련 연구를 자극해 CNN을 활용한 딥러닝 분야에서 놀랄 만한 성과를 초래했다.

뉴욕대( NYU) 심리학 신경과학 교수 마커스와 르쿤은 모두 AGI 달성에 딥러닝 만으로 충분하지 않다는데 동의한다. 마커스는 르쿤이 옛 모델인 딥러닝을 AGI로 가는 핵심으로 여기며, 그 한계를 분명히 밝히지 않는다고 지적한다.

딥러닝 기반 인공지능 혁명에서 핵심적인 역할을 한 페이스북 AI연구소를 이끄는 르쿤(NYU 교수)은 지난달 27일 트위터에서 “우리는 DL(Deep Learning, 딥러닝) 을 가지고 있지만 아직 AGI를 가지고 있지 않기 때문에, 우리가 뭔가를 놓쳤다는 사실을 모든 사람에게 분명히 말한다…나의 주장은 딥러닝(gradient-based*, 다변수 함수의 편미분계수로 구성된 벡터기반)이 솔루션의 일부가 될 것”이라고 말했다.

게리 마커스는 지난 2일 긴 논쟁에 대한 입장을 정리해 SNS 블로그 미디엄에 글(The deepest problem with deep learning)을 올렸다.

글은 ‘우발적 트위터 설전에 대한 반성, 인공 지능과 딥러닝의 미래, 그리고 스쿨버스와 제설차를 혼동 할 때 일어나는 일’이라는 부제를 달았다.

그는 11 월 21 일 캐나다 몬트리올대 요수아 벤지오(Yoshua Bengio)의 테크놀로지 리뷰(Technology Review) 인터뷰를 인용하며 글을 시작했다.

“우리는 AI의 어려운 문제를 고려해야 하며 단기적이고 점진적인 발전에 만족하지 않아야 한다고 생각합니다. 딥러닝을 잊고 싶다는 말은 아닙니다. 반대로, 나는 그것을 기반으로 하고 싶습니다. 그러나 우리는 정보를 배우고 습득하는 추론, 인과 관계 학습, 실제 세계를 위해 그것을 확장 할 수 있어야 합니다.” –요수아 벤지오

마커스는 이에 동의했고 벤지오가 이처럼 공개적으로 말한 것이 대단하다고 말한다. 그는 글에서 몇 년 전에 딥러닝을 옹호한 것 관련해 중요한 관점 또는 최소한의 틀(framing)에서의 변화, 오랫동안 지지 해온 AGI에 대한 지향, 벤지오 입장에 대한 동의를 주장했다.

그는 2012년 11월 25일 뉴요커(New Yorker) 기고를 인용해 “딮러닝은 즉각적인 실제 응용 프로그램과 함께 중요한 작업이다… 현실적으로 딥러닝은 지능형 기계를 구축하는 데 있어서 큰 도전의 일부일 뿐이다. 그러한 기법은 인과 관계(예를 들면 질병과 증상 사이)를 표현하는 방법이 부족하며 형제(sibling) 또는 동일 대상(identical to)과 같은 추상적 아이디어를 획득하는 데 어려움을 겪을 수 있다. 논리적 추론을 수행하는 분명한 방법이 없으며 객체가 무엇인지, 무엇을 위한 것인지, 그리고 일반적으로 어떻게 사용되는지에 대한 정보와 같은 추상 지식을 통합하는 것에서 아직 멀다. 가장 강력한 A.I. 시스템은…베이지언(Bayesian) 추론의 통계적 기법에서 연역적 추론에 이르는 매우 복잡한 앙상블 기법에서 딥러닝 같은 기법을 하나의 요소로 사용한다”고 말했다.

그는 이 발언이 딥러닝 자체가 만능이 아니라고 밝힌 최초의 글이며 벤지오는 거의 동일한 말을 했다고 주장한다.

마커스는 이에 대한 얀 르쿤의 반응이 부정적임을 지적이라고 말한다. 그는 “르쿤은 반복적이고 공개적으로 (자신을) 단지 막 딥러닝의 유용성을 깨우친 사람으로 잘못 표현해 왔다”며 자신이 “딥러닝을 전혀 싫어하지 않으며 지난번 회사(그는 Geometric Intelligence(acquired by Uber) CEO 겸 설립자였다)에서 그것을 활용했고, 그것을 다시 사용할 것”이라고 설명한다.

그는 공개적으로 “딥러닝은 여러 종류의 문제, 특히 음절과 대상을 인식하는 것과 같은 지각적 분류와 관련된 문제에 대한 훌륭한 도구이지만 만능은 아니다”라며 “르쿤과 NYU에서 가진 논쟁에서 르쿤의 초기 컨볼루션 작업을 칭찬했다. 이것은 대단히 강력한 도구다. 그리고 나는 2012년 뉴욕커 기사에서 처음으로 딥러닝에 대해 쓴 이래 딥러닝에 나름의 의미(무한한 것은 아니다)를 부여하고 있었다”고 말했다.

또 지난 1 월, 뉴요커에 기고한 ‘딥러닝 : 비판적 평가(The Deepest Learning : Critical Appraisal)’에서는 “우리가 딥러닝을 버려야 한다고 생각하지는 않는다”고 명시적으로 밝혔다고 설명했다.

그는 비엔지니어의 비평을 막는 태도는 불합리하며 과학에는 비평가가 필요하다고 주장한다. 마커스는 “르쿤 자신도 딥 리인포스먼트 러닝(Deep Reinforcement Learning, DRL) 및 신경모방 컴퓨팅(neuromorphic computing)에 비판적이었다. 개인적으로 알고리즘 엔지니어는 아니지만, 지금까지 나의 비판은 유효한 예측적 가치가 있었다. 한 예로, 내가 브렌단 레이크(Brendan Lake)와 마르코 바로니(Marco Baroni)와 벤지오(Bengio) 자신과 같은 사람들에 의해 현대 모델을 사용한 최근 작업에서 보여 지듯이, 내가 1998년에 처음 출판한 딥러닝에 대한 실험은 오늘날에도 계속 유효하다. 필드가 근본적인 비판에 직면하기 보다 과학적 질문을 정치로 대체, 비평가들을 억압하려 할 때 무언가가 심각하게 잘못되어 가는 것”이라고 말했다.

한편으로는 그도 르쿤이 딥러닝이 한계를 인정한 것에는 동의하지만 그 한계를 특정하지 않았다고 비판한다.

마커스는 “일반적으로, 항상 그렇다고는 말할 수 없지만 딥러닝에 대한 비판은 무시되거나 무시되어 지기도 한다. 딥러닝에 대한 구체적인 한계가 있다고 지적하는 사람이 있을 때마다, 제레미 하워드(Jeremy Howard)와 같이 딥러닝이 과대 평가되었다는 생각 자체가 과장되었다고 말하는 누군가가 있다. 르쿤과 같은 인공지능의 리더들은 약간의 제한이 있어야 한다는 것을 모호한 방법으로 인정하지만 한계가 무엇인지 특정하는 경우는 드물다. (이는 Bengio의 새로운 보고서가 주목할만한 이유이기도하다.) 시스템상 데이터 부족문제를 언급하는 것 이상으로 말이다”라고 밝혔다.

문제는 딥러닝 알고리즘이 ‘블랙 박스’처럼 불투명해 한계를 밝히기 어렵게 한다는 점이다.

“우리는 아직 그 해답을 모른다. 딥러닝은 계속해서 매우 생산적인 패러다임이다. 우리는 여전히 강력한 새로운 네트워크 아키텍처와 흥미로운 메타 학습 및 전송 학습 전략을 찾고 있다.” – 토마스 디트리히(Tom Dietterich) 11.25 트위터

마커스는 “디크리히는 물론 기술적으로 정확하다. 아무도 아직 딥러닝 한계에 대한 공식적인 증거를 전달하지 못했기 때문에 분명한 대답은 없다. 또한 딥러닝이 계속 진화한다는 것도 옳다. 그러나 트윗은 경험적으로 관찰 된 한계 추론 능력과 같은 범위의 적어도 일부 제한에 대한 강력한 암시적 증거가 많이 있다는 사실을 간과한다. 자연어 이해 능력이 떨어지며, 적대적인 사례에 ​​취약하다”고 말했다.

이어 그는 “LeCun, Bengio, Hinton이 Nature에 2015년 발표한 딥러닝에 대한 기사를 살펴보면 딥러닝의 힘을 상세히 설명한다. 다시 말하면 대부분 진실이지만, 딥러닝의 한계에 대해 거의 아무것도 인정하지 않았다. (독자는)논문의 의미를 넘어 딥러닝이 실제로보다 훨씬 광범위한 도구라고 생각하기 쉽다. 이 논문의 결론은 딥러닝의 역사적 안티테제 – 상징 조작 / 고전적인 인공 지능(symbol-manipulation/classical AI) -을 대체해야 한다는 인상을 심어 준다 . 논문은 ‘대형 벡터에 대한 룰 기반의 상징표현(symbolic expressions) 조작에 대한 새로운 패러다임이 필요하다’고 말한다. 많은 과학 논문의 전통적인 결말에서 보이는  ‘한계’에 대한 언급은 본질적으로 빠져 있어 딥러닝을 위한 지평은 무한하다는 추측을 불러 일으킨다. 상징 조작은 곧 역사의 쓰레기통에 남아있게 된다”고 지적했다.

마커스에 따르면 한계를 인정하지 않고 힘을 강조하는 전략은 DeepMind의 2017 Nature 논문에서 훨씬 더 두드러진다. Go는 DRL을 위한 무한한 지평을 암시하는 듯하다. Go는 AI가 AI에서 가장 어려운 문제 중 하나임을 시사한다. 논문은 “우리의 결과는 가장 어려운 영역 에서 조차도 순수한 DRL 접근법이 완벽하게 실현 가능하다는 것을 종합적으로 입증한다”며 다른 어려운 문제가 질적으로 특징이 다르다는 것을 인정하지 않는다. 대부분의 작업의 정보가 GO에서 보다 덜 완전하기 때문에 비슷한 접근법을 활용할 수 없을 수도 있다.

그는 현장이 실제로 충분한 근거에 기반해 발견 된 약점을 공개적으로 인정하지 않고배타적으로 정체하는 현상을 우려했다.

마커스는 다시 자신의 입장을 분명히 한다. 딥러닝은 정말 훌륭하지만, 인지 작업에는 명백히 잘못된 도구다. 일반 지성(GI)이 인식적 분류에 더 많이 필요하다. 2012년에 자신이 말한 것은 딥러닝은 AI의 워크플로우의 일부로 “매우 복잡한 것들의 앙상블의 요소 중 하나” 가 되어야 한다는 것이었고, 올해 1월에는 “보편적 해법이 아니라, 많은 것들 가운데 한 가지 도구”라고 말했다고 설명한다. 딥러닝은 우리가 생각할 수 있는 것, 특정 강점과 특정 약점을 가진 도구 중 하나이며 아무도 이것에 놀라선 안된다는 의견이다.

그는 ”내가 딥러닝에 관해 비판할 때, 그것이 대체돼야 한다고 생각하기 때문이 아니다. 그러나 a) 이것이 과대포장 돼 종종 잠재적 한계보다 강점에 훨씬 더 주의를 기울이는 과도한 견해(예 : Andrew Ng의 발언 또는 DeepMind의 2017 Nature 논문 전체 프레임), (b) 딥러닝에의 도취는 종종 상징적 조작에 대한 적개심을 동반하는데 이는 AI에 근본적 실수라고 믿는다”고 지적한다.

그의 주장은 두 가지의 딥러닝과 상징 조작이 공존 할 가능성이 훨씬 높다는 것이다. 지각 분류의 많은 측면을 다루는 딥러닝과 추상적 지식에 대한 추론에서 핵심적인 역할을 하는 상징 조작이 공존하는 것이다. 딥러닝과 함께 협소한 인공 지능(narrow AI)의 발전은 종종 우리가 더 이상 상징 조작을 필요로 하지 않는다는 것을 의미하는 것으로 받아 들여지며, 이것은 큰 실수라고 주장한다.

이와 관련한 르쿤의 트윗은 다음과 같다.

“내가 이해하지 못하는 것은 딥러닝에 대한 당신의 (아마도 약화된) 적대감이 어디에서 비롯되는지 이다. 우리가 (실제로) 앞으로 나아가는 것에 그다지 반대하지 않고, 우리는 (지금까지는 명백히) 딥러닝이 해결책이라는 것에 동의하는데 말이다.” -11.26

“우리는 어떻게 상징 조작(symbol manipulation)과 학습을 통합 할 것인가?”라는 질문은 정확히 내가 묻고 있는 질문이다. 우리는 그것에 동의한다. 그러나 나는 딥러닝(gradient-based)이 대답의 일부라고 생각한다. 당신의 트윗 중 하나가 동의하는 것 같다. 그러나 딥 네트(Deep Nets)에서의 위의 발언은 다른 것을 제안하는 것처럼 보인다.” -11.24.

한편, 이번 논쟁에는 Google Google Brain 프로그램의 제프 딘(Jeff Dean), OpenAI의 정책 담당자 잭 클락(Jack Clark), AI 사상가 유대 펄(Judea Pearl), 머신러닝의 창립자중 한 사람으로 AI위협에 대해 발언해온 오래곤 주립대 석좌교수 토마스 디트리히(Thomas Dietterich) 등이 참여했다.

* gradient-based DL

비선형 함수의 기울기 기반 딥러닝으로 정의 된다.