“현재 AI 99%는 사람의 개입이 필요한 수준입니다. 비 개입(Unsupervised) AI 구현은 1% 에 불과합니다. 개입이 필요한 학습(supervised learning)은 대용량 고품질 학습 데이터가 필요합니다. 데이터의 한계로 현실 적용 시 오버핏팅의 문제도 있습니다.” – ETRI 김현기 박사

한국전자통신연구원(ETRI)은 13일 서울 역삼동 한국과학기술회관에서 솔트룩스, KAIST와 함께 ‘엑소브레인 언어지능 심포지엄’을 개최했다.

엑소브레인은 ‘내 몸 밖의 인공두뇌’라는 뜻으로 과학기술정보통신부가 추진 중인 인공지능 분야 국가전략프로젝트 과제다.

이번 심포지엄은‘자연어 처리 및 질의응답’등 국내 인공지능 기술과 관련 산업의 발전방향을 논의하는 자리로 자연어 처리 분야 국내외 전문가들이 참여했다.

미국 켈리포니아대학 얼바인(UC Irvine)의 사미어 싱(Sameer Singh) 교수, ETRI 김현기 박사, 영국 멘체스터대학 안드레 프레이타스(Andre Freitas) 교수, 맹성현 KAIST 교수, KT 장두성 박사, 한글과 컴퓨터 오순영 상무, 솔트룩스 이경일 대표 등이 3개의 세션에서 주제 강연을 이어갔다. 기계독해‧정보추출 등의 다양한 딥러닝 기술에 대한 포스터 세션도 이어졌다.

사미어 싱(Sameer Singh) 교수는 ‘사전 정보 입력과 지식기반 임베딩 방법(Injecting Prior Information and Multiple Modalities into KB Embeddings)’를 주제로 첫 기조강연을 했다.

그는 어떻게 정확한 지식기반을 만들 것인지, 머신러닝을 활용해 사람이 가진 상식과 공통감각을 지식 기반으로 전환하는 다양한 방법에 관한 연구를 소개했다.

‘기호적 접근과 딥러닝 기술을 융합한 자연어 처리 및 질의응답 기술’ 주제 강연에서 ETRI 김현기 박사는 미국 IT 시장조사기관 가트너의 2017년 기술적 하이프사이클에 따르면 인공지능(AI), 기계학습(Machine Learing, ML) 등 기술적 과장(hype)이 정점에 달했다고 밝혔다.

2013년 이후 최근 5년간 구글 트랜드 분석 결과 딥러닝(Deep Learning)< AI < ML 순으로  격차 점차 확대되고 있다. 국내 관심도는 딥 러닝이 1위였다.

미국 IT매체는 ‘구글 크라우드 오토 ML, AI에 의한 AI 하이프’ 지적했다. 실제로 현재 AI 99%는 사람의 개입이 필요한 수준이다. 비개입(Unsupervised) AI 구현은 1% 에 불과하다. 개입이 필요한 학습(supervised learning)은 대용량 고품질 학습 데이터가 필요하다. 데이터의 한계 등으로 현실 적용시 오버 핏팅의 문제도 있다.

고프리 힌튼(Geoffrey Hinton) “백프라퍼게이션이 매우 의심스럽다. 다시 시작해야”

얀 르쿤(Yann LeCun) “AI 하이프, AI Winter 경고”

촘스키(Chomsky) ‘인간 매순간 언어 학습과 활용을 병행’…AI 언어지능은 실시간성 부족

김 박사는 “AI문법분석은 문어체의 경우 언어학자 수준 분석이 가능하다. 의미 분석은 연구 초기단계에 해당한다. 의미는 중의, 함의, 은유, 반의 등 문맥과 맥락, 상황에 따른 해석이 필요하다”고 말했다.

이어 그는 “엑소브레인은 딥러닝 적용 고려시 외부 지식, 구분된 데이터, 도메인 적용성, 확장성, 번역가능성 등이 필요하다”며 “자연어 심층이해 기술은 문법에서 의미, 대화로 가고 있는 추세다. 구문 분석은 언어학자 수준이며 의미 분석에 도전하는 단계다. 엑소브레인 93%, 구글 94% 수준”이라고 밝혔다.

‘자연어처리 시스템 엔지니어링을 위한 효과적인 시멘틱스(Effective Semantics for Engineering NLP Systems)’ 주제 강연에서 안드레 멘체스터대 교수는 ‘지식그래프 오픈 AI(from Text to knowledge Graph- openAI)’구축을 강조했다.

지식 그래프는 데이터를 기반으로 중심에서 개방형 정보 추출, 포괄적 추출을 통해 구성이 된다.

공통 지식으로 분권화된 시멘틱 모델(Distributional semantic model as commensence knowledge)을 단순화/변형단계, 수사적 관계 증강 구조(Augumentation Structures), 증강구조 분류, 증강 스키마(scheme) 등을 통해 설명했다.

“자연언어 추론 연구에 IBM, 약 18억 달러 투자”

분산화된 지식 그래프를 효율적으로 활용하는 방법은 머신러닝 테스트, 융통성 검색(elastic search)등이 있다. 이 밖에 시멘틱 스페이스 & 공간 관점, AI, 시스템 용어문제 등에 대해서도 설명했다.

KAIST(연구책임자 맹성현 교수)가 주관하는 엑소브레인 3세부 과제에서는 언어를 개념그래프 형태로 모델링, 대규모의 지식을 추출하고 추론하는 원천기술 개발 및 어휘지도와 기계학습 데이터를 구축하고 있다.

‘컨텍스트 인지형 Deep-Symbolic 하이브리드 개념 그래프 생성’ 주제강연에서  맹성현 KAIST 교수는 “뉴럴 상징적 듀얼 대표성, 컨텍스트, 유연한 추론을 위한 대략적인 매칭 등을 연구하고 있다”고 밝혔다.

AI대화비서, 가장 많이 사용하는 서비스는 “엘리베이터 불러줘”

KT 장두성 박사는 “지능형 대화비서:GiGA Genie Assistant”를 주제로 발표했다.

장 박사는 “대화시스템은 의미해석을 통해 개체명, 사건추출, 의미역 분석 등을 하고 있다. 음악, 뉴스 등 미디어의 경우, 어휘가 계속 증가해 대화로그에서 실사용 어휘를 반자동 습득, 실시간으로 받아들이는 구조를 구축했다. 분석,학습모델을 통해 내부서비스 매타정보를 가져가도록 했다”고 말했다.

음성비서 서비스 질의응답 활용 관련 “현재 위키피디아 DB피디아를 지식 베이스로 답을 내보내고 있는데 60%정도는 답을 못하고 있다” 며”협력 회사들과 지식 베이스를 확대, 40%에서 60%까지 늘었다. 현재 문서독해기반 실시간 QA 등을 통해 지식베이스에 없어도 웹에서 정보를 찾아 내보내는 것을 개발하고 있다”고 말했다.

“보는 모든 것을 쉽게 믿지 않는 것이 중요하고, 리서치를 통해 무엇을 만들 수 있는지 해보는 것이 중요하다. 유명한 것 알려진 것이 꼭 좋은 것이 아니다.”- UC Irvine 사미어 싱(Sameer Singh)

이날 강연 후 별도 인터뷰에서 사미어 교수는 AI 연구에서 중요한 것에 대해“보는 모든 것을 쉽게 믿지 않는 것이 중요하고, 스스로 리서치를 통해 무엇을 만들 수 있는지 해보는 것이 중요하다. 유명한 것 알려진 것이 좋은 것이 아니다”라고 말했다.

AI가 초래할 실직 등 사회변화 우려에 대해서는 “AI는 새로운 선택의 기회를 주는 것으로 기존에 하던 일을 하지 않도록 AI가 선택을 강요하는 것은 아니다”라며 “엑소브레인 프로젝트의 경우, 사람이 독서를 좋아한다면 여전히 그것을 즐길 수 있다. 사람들은 항상 실직의 위험이 있었고 그것이 새로운 것은 아니다”라고 밝혔다

한편, 엑소브레인 사업에는 총괄과제 주관기관인 ETRI를 비롯해 세부과제 주관기관으로 솔트룩스, KAIST 등 산‧학‧연에서 총22개 기관이 연구개발에 참여하고 있다.

엑소브레인의 핵심이 되는 기술은 인간 수준 문법분석▲한국어 분석 기술, 텍스트 빅데이터 기반 언어지식과 단위지식 학습 ▲지식 축적 및 탐색 기술 ▲자연어 질의응답 기술 등이다.