솔트룩스 파트너스(www.mobico.com )는 12월중에 한국정보화진흥원이 운영하는 AI허브(http://www.aihub.or.kr) 에 고품질 인공지능 번역 말뭉치 160만쌍을 공개한다.

인공지능 번역 학습을 위한 말뭉치는 ‘원문-번역문’의 문장쌍이 하나의 데이터를 이룬다. 따라서 160만 문장이라 함은 160만 문장쌍을 의미한다. 지난 5월 15일 한국정보화진흥원이 발주한 2019 인공지능데이터 구축사업의 주관사업자로 선정된 후 6.5개월간 300명이상의 구축인력을 통해 얻어낸 결과물이다.

인공신경망 기계번역(NMT)의 기술 발전으로 일반 대중들은 자동 번역기를 적극적으로 활용하면서 AI 번역 기술과 학습용 번역 데이터는 매우 중요한 자원으로 요구되고 있다. 하지만 일반 민간 기업들이 해당 시스템을 개발하거나 기술적 성능을 내기 위해서 대규모의 고품질 학습 데이터가 절실히 필요한 상황이다.

한국정보화진흥원은 이러한 국내 기업 및 공공기관의 수요를 파악하여 10개 분야에서 AI 데이터 구축사업을 진행하고 있다. 이 중 가장 대중적인 관심과 활용도가 높을 것으로 판단되는 분야가 바로 한국어-영어 번역 말뭉치다.

저작권 문제가 해결된 뉴스데이터 80만문장과 학습성능이 뛰어난 조례 10만 문장, 한국문화 10만 문장, 상황별 구어체 40만문장, 대화체 10만 문장 등은 다양한 서비스를 자동번역과 연결하는 AI 기업들에게 기초 데이터로 활용될 것으로 보인다.