# A 은행은 고객 및 내부 직원으로부터 매월 10만여 건 이상의 신규 문의가 발생하는데 이를 인공지능 챗봇, 상담 어시스턴트로 처리해 연간 수십억 원을 절약한다.

단순한 명령 정도만 알아듣는 음성인식 가상비서로 시작했던 음성인식 기술은 심층 신경망을 포함한 기계학습 기술의 혁신적인 발전과 함께 대용량 분산 처리 기술로 성능이 크게 향상됐다.

기계가 사람의 말을 알아듣기 위해서는 음성인식 엔진의 성능이 중요하다. 솔트룩스는 작년 8월 국내에서 음성인식 솔루션을 자체 개발한 아틀라스랩스와 전략적 투자 및 사업 협력을 위한 양해각서를 체결하고 액티브 러닝(Active Learning)이 적용된 ‘3세대 음성인식’ 기술에 관한 공동 연구를 진행해왔다.

아틀라스랩스는 전 세계적으로 가장 많이 쓰이는 음성인식 오프소스인 Kaldi를 기반으로 자체 음성인식 솔루션 ‘Zeroth Enterprise Edition(Zeroth EE)’를 개발했고, 국내 대기업/중소기업과의 프로젝트를 통해 해당 기술의 우수성을 검증 받았다.

음성인식 기술은 간단한 기계학습이나 시그널 분석을 활용한 1세대, 딥러닝 기술을 적용한 2세대, 액티브 러닝을 적용한 3세대까지 발전되는 추세다.

솔트룩스와 아틀라스랩스가 공동 연구/개발한 음성인식 액티브 러닝 기술의 핵심은 어떤 데이터(오디오)를 먼저 레이블링(선별)해서 음성인식기를 학습하게 할 것인지에 있다. 액티브 러닝 기술을 통해 전체 1/3 수준의 데이터로 학습할 수 있는 스몰데이터 러닝이 가능해 비용과 시간을 70% 이상 절감할 수 있고 음성인식 엔진의 음향모델을 최적화하는 것이 가능하다.

기존의 음성인식 엔진이 구축된 기업에서 음성인식기의 성능을 높이려면, 기업에서 실제 운영을 통해 약 천 시간 분량의 실데이터를 확보해야만 한다. 설사 천 시간 분량의 오디오 데이터를 확보하더라도 해당 오디오에 대한 전사 데이터를 만들기 위해서는 추가로 막대한 시간과 비용이 필요하다. 시간당 전사 비용을 10만 원씩만 책정해도 1억 원 이상이 필요한 구조이다.

솔트룩스에 따르면 액티브 러닝 기술이 적용된 음성인식 엔진을 도입할 경우, 품질은 높아지고 음성인식 엔진 업그레이드 비용은 기존 대비 최대 1/5 수준까지 절감될 수 있다. 딥러닝 기반의 음성인식 기술을 지식그래프와 연동해 3세대 인공지능 기술을 실용화 한다는 목표다.