인공지능 연구소 네이버랩스유럽(Naver Labs Europe)은 생활환경지능(Ambient Intelligence, AmI)을 비전으로 인공지능 기술을 연구 개발하고 있다. 유비쿼터스 시대 개인화된 서비스와 직관적으로 상호 작용하는 세계를 만든다는 구상이다.

프랑스 남동부 그르노블에 위치한 네이버랩스유럽은 100여명이 근무 중인 규모있는 연구소다. 이중 85명이 인공지능(AI) 관련 분야를 연구하는 과학자들이다.

12일 서울 삼성동 코엑스 ‘Deview 2018’에 참가한 네이버랩스유럽 줄리안 페레즈(Julien Perez) 머신러닝최적화팀 리더, 토미 실렌더(Tomi Silander) 선임연구원, 페트릭 메조(Patrick Mazeau) 비즈니스 마케팅메니저와 아이린 멕스웰(Irene Maxwell) 커뮤니케이션메니저를 만났다.

네이버랩스유럽은.

네이버랩스(NAVER LABS) 일원으로 생활환경지능 분야 사용자와 컨텍스트를 이해하는 인공지능 서비스를 연구하고 있다.

연구분야는 3D·컴퓨터비전, 머신러닝 최적화(Machine Learning and Optimization), 자연어처리(Natural Language Processing), 데이터와 프로세스 관리, 사용자 경험과 에스노그라피(UX AND Ethnography), 지리공간 데이터(Geospatial Data) 등이다.

이밖에 스마트폰 등 소형기기에서 인공지능 구현을 위한 에지컴퓨팅(Edge Computing), 분산 컴퓨팅 시스템과 웹 모바일 온라인 서비스 아키텍처도 만들고 있다. 시각(CNN 활용), 강화학습(RL) 분야에서 축적된 기술로, 세계 최초 상업적 이미지 분류기를 개발하기도 했다.

100여명의 연구원, 엔지니어 및 디자이너는 자율주행, 로봇공학, 인공 지능 등 미래 기술을 연구한다. 2013년 이래 연구소는 AI기반의 번역앱 ‘Papago’, 통합 웹 브라우저 ‘Whale’, 가상 AI 조력자 ‘Clova’, 생물학적으로 영감을 얻은 로봇팔 ‘AMBIDEX’ 등 기술 혁신을 이끌고 있다. 3D 실내 촬영로봇’AROUND’와 차량 내 정보 엔터테인먼트 시스템 ‘AWAY’를 개발했다.

생활환경지능이란.

생활환경지능(Ambient Intelligence, AmI)은 머신러닝(ML), 컴퓨터비전(CV), 자연어처리(NLP) 등을 활용해 사람들이 일상 생활에서 개인화된 서비스와 직관적으로 상호 작용하는 세계를 가능하게 하는 기술이다.

목표는 AI기술 차원에 머무르는 것이 아니라 사람을 둘러싸고 있는 환경에 그 기술이 녹아들어 사람이 일상에서 그 기술을 인식하지 못하는 수준에 이르는 것이다. 이동, 쇼핑, 취미생활 등 일상에서 개인의 기호, 선호를 프로파일링해 최적화된 제안을 하는 기능 구현을 시도하고 있다. 아직 개발이 완료된 것은 아니다.

예를 들어, 생활환경지능 기능이 탑재된 기기에 쇼핑을 하러 간다고 말하면 우선 쇼핑센터로 가는 과정의 이동경로를 추천한다. 걷는 것을 좋아하는지, 자동차로 이동하는지, 버스, 지하철을 이용한다면 선호하는 노선과 최적경로를 자동으로 추천한다, 또 쇼핑을 하는 과정에서는 프로모션 이벤트, 원산지정보, 가격 변동과 경쟁상품과 비교 등 활용가능한 정보를 제공한다.

‘머신리딩’ 용어가 생소하다. 클로바에도 활용되는 기능인가.

클로바는 구문 인식과 분석 기능을 제공한다. 한국과 일본 중심으로 적용중이고 다른 외국어로 확장을 시도하고 있다. 우리가 노력을 기울이고 있는 부분은 머신리딩(Machine Reading) 분야다. ML, DL(Deep Learning), RNN(Recurrent Neural Network) 등을 적용해 질문을 하면 위키피디아 등에서 적합한 정보를 확인해 자연어로 대답을 하는 시스템이다.

머신리딩(하단 Julien Perez 강연내용 참고)은 기존 시스템과 다른 접근이다. 기존 NLP의 구문 시멘틱구조, 지식베이스 접근의 단점을 보완하기 위한 시도다. NLP 연구자 2명을 포함, 5명의 과학자들이 연구를 수행하고 있다.

추후 네이버 검색과 클로바, 인공지능 스피커 대화 등에 활용될 수있다. 애플리케이션 처럼 특정한 국가에 기반한 서비스라기보다 보편적 서비스 가능한 기술을 구현하고 있다.

사용하는 데이터세트는.

스탠포드 질의응답 데이터셋(SQuAD, 위키피디아 Q&A 데이터 기반)을 이용 중이다. 데이터 시스템을 정교화하기 위해 자체적인 질의응답 데이터도 구축하고 있다.

인간 수준 인공지능은 달성가능한 목표인가.

연구소 내에서도 연구자에 따라 입장이 다르지만, 매우 먼 미래라는 의견이 지배적이다. AI는 현재 여전히 기초적인 수준이다. 기술적 과장(Hype)에 따른 투자 단절과 연구 위축, ‘AI Winter’가 반복된 만큼 미래 기술적 전망을 쉽게 내리긴 어렵다. AI 수준은 데이터에 크게 의존한다. 현실 세계를 반영하는 완벽한 트레이닝 데이터에는 프라이버시 문제와 보안 등 제약이 있다.

뇌과학자도 있는가.

네이버랩스유럽에 뇌과학자는 없지만 연구자들은 종종 관련 주제로 논의를 할 만큼 큰 관심을 갖고 있다. 우리는 다양한 접근을 병행하고 있다. 딥뉴럴네트워크(DNN) 등 뇌과학의 영감은 훌륭한 결과를 내기도 했지만, 두뇌 기능 대한 이해 수준이 낮아 AI에 적용하는데는 한계가 있다. 활용을 하더라도 다른 기술적 보완이 필요하다.

연구와 연계된 다른 활동은.

파리에 네이버 투자 펀드가 있다. 기술적으로 뛰어난 스타트업에 투자를 하고 있다. 고급 오디오 시스템 스타트업 등에 투자했다.

파리에는 스타트업 엑셀러레이팅을 위한 네이버랩 인큐베이터도 운영하고있다. 세계적 규모의 스타트업 공간 ‘스테이션F’에 입주해 스테이션F 밋업과 세미나 등을 병행하고 있다.

프랑스 정부는 인공지능의 부작용와 위협에 대해 심도있는 논의를 해왔다. 연구소 내부에도 관련 논의가 있는가.

인공지능에는 장점과 단점, 부작용이 공존한다. 특히 프랑스는 이 부분에 민감하다. 마크롱 대통령은 ‘인류를 위한 AI(AI for Humanity)’를 선언했다. 의료와 보험데이터 등 윤리, 프라이버시가 민감한 부분에 ML, AI를 활용할 수 있는지 세심한 논의가 필요하다.

또 다른 부분은 AI 활용 필요성과 AI 결정에 대한 설명가능성, 투명성이 있다. 유럽은 일반데이터보호규정(GDPR) 등 프레임워크를 통해 5년간 심도 깊고 복합적인 논의를 하고 있다. 미국도 논의가 있지만 산업 차원의 논의고 국가적인 프레임워크 차원에서 이뤄지지는 않고 있다.

규제 프레임을 도출하기까지 시간은 더 많이 소요되겠지만 시민들을 더 잘 보호할 수 있다.

* NAVER LABS Europe은 이전에 Xerox가 1993 년에 제록스 (Xerox) 가 만든 유럽의 Xerox Research Center Europe이었다. NAVER는 2017 년 8 월에 연구 센터를 인수했다.

*줄리안 페레즈(Julien Perez) 머신러닝최적화팀 리더(Lead-Macnine Learning and Optimization team)는 이날 오후 ‘위키피디아- 스케일 Q&A’을 주제로 머신리딩에 대해 설명했다.

머신리딩이란 딥러닝을 기반으로 보다 정확하고 효율적인 지식 추출과 관련한 추론의 일종이다. 인간의 지식은 자연어로 저장된다. 언어는 상식과 선험적인 지식을 가정. 양의성, 문맥성 때문에 효율적이다.

적용영역은 지식 베이스(Knowledge Base) 문서정보, 소셜 미디어 마이닝, 대화 이해, 팩트 체킹(가짜 뉴스 확인) 등이다.

지식베이스 접근은 기계 작동가능한 텍스트 재현을 생산하는 시스템이다. 여기에는 세가지 문제로, 고정되고 사전 정의된 온톨로지(ontologies,단어와 관계들로 구성된 일종의 사전), 용어 도메인(lexical domain),구조화에 따른 데이터 복제 등이 있다.

‘정보 획득(Information Retrieval, IR)’ 접근도 있다. 크리스토머 메닝(Christopher Manning)은 ‘Introduction to IR(2008)’에서 Information Retrieval(IR)은 비구조화된 문서나 텍스트, 컴퓨터에 저장된 방대한 정보에서 요구를 충족하는 정보를 찾는 것이다.

자동화된 발화, 인식 기능은 머신리딩에 질문을 허용한다. 정보를 찾는 것은 추론 문제 해결과는 다르다.

고전적 딥러닝을 통한 NLP 접근은 세가지 문제가 있다. 먼저, 시멘틱 언어 의존적 컴퓨터 문법, 추가적인 불필요한 조건(Annotations, Priors), 기계의 종단간(end-to-end) 이해 불가능성 등이다.

머신리딩은 지식 추출에 대한 추론이다.텍스트 형식 데이터는 추론 역량을 특정할 수 있다. 목표는 텍스트 정보 이해 가능한 머신을 만드는 것이다. 데이터 손실을 최소화 하면서 캐테고리화 하는 최적화 과정을 통해 텍스트 정보를 사람과 기계가 함께 이용할 수 있는 해석가능한 구조화된 지식으로 전환하는 것이다.

결론적으로 머신리딩 페러다임은 자연어 이해를 위한 다음 단계로 훌륭한 결과를 제시하고 있다. 딥러닝은 머신 리딩을 가능하게 한 주요 요인이다. 머신리딩은 또한 딥러닝연구의 기반이다. 데이터셋, 논문, 코드 등 활동적인 커뮤니티가 존재한다. 다양한 잠재적 영향력을 지닌 많은 도전들이 시도되고 있다.

현재까지 구글 위키리딩, MS MARCO 등 머신리딩 데이터세트는 10만건 이상이 있다.