오픈AI(OpenAI)는 최근 음악을 만드는 주크박스(Jukebox)라는 새로운 형태의 인공 지능(AI)을 발표했다.

Jukebox AI는 연주 및 가사 등을 기반으로 사운드를 생성할 수 있다.

엘론 머스크가 공동 설립자로 참여한 독립 AI연구단체 ‘OpenAI’ 리서치 팀은 압축 된 오디오 클립과 다양한 가사를 훈련시켜 AI를 만들었다. 원 오디오 클립을 사용해 모델을 훈련, 모델에 오디오를 생성할 수 있는 기능을 제공했다. 이것은 다른 음악 생성 응용 프로그램을 만드는 데 사용되는 접근 방식과 대조적이다. 다른 음악 생성 응용 프로그램은 종종 음표 및 피치에 대한 정보이지만 실제 오디오는 아닌 음성 파일(MIDI 등)에 의존한다.

연구팀은 컨볼루션 신경망(CNN)을 사용해 모델을 훈련하고 오디오를 압축하며 신경망이 해석할 수 있는 형식으로 인코딩했다. 그 후, 변환기를 사용해 압축 오디오를 생성, 데이터를 오디오 형식으로 변환하기 위해 업 샘플링 했다.

OpenAI 연구자들은 오디오를 불연속적 부분으로 나누고 노래를 1/128 초 길이의 비트로 나누는 방식으로 오디오의 지속적인 특성을 다루었다. AI 모델은 노래의 패턴을 배우고 그 패턴을 재구성할 수 있을 정도로 정확했다.

OpenAI가 사용하는 기술은 ‘MuseNet’이라는 회사에서 생산한 오래된 음악 세대 AI와 일부 공통점을 공유합니다. MuseNet은 MIDI 파일에 대해 훈련을 통해 노래 전체 멜로디에 중점을 두고 가사를 만들 수 없었지만 다양한 스타일로 음악을 생성할 수 있었다.

반대로 주크박스는 음악과 함께 자신의 가사를 쓸 수 있다. 가사는 OpenAI 연구원들이 공동 참여해 특정 스타일로 가사를 만들도록 모델을 안내한다. Jukebox 시스템은 ‘LyricWiki’에서 스크랩한 가사에 대한 훈련을 받았으며 120만 곡의 텍스트와 메타 데이터로 구성된 교육 데이터를 사용했다.

모델 가사 생성을 위해 연구자들은 노래의 특정 부분/세그먼트에 해당하는 텍스트를 분석해, 대략 노래의 지속 시간까지 가사를 늘린 간단한 휴리스틱을 사용하려고 시도했다. 이 간단한 접근법은 일반적으로 효과가 있었지만 연구자들은 가사가 빠르면 작동에 오류하 나는 것을 발견했다. 이 문제를 해결하기 위해 노래에서 보컬을 추출하고 텍스트 배열로 가사에 대한 단어 수준 분석을 얻었다.

그 후, 키-값 페어을 통해 음악을 가사에 매핑한 레이어와 함께 인코딩 했다. 그 결과 가사와 보컬이 상당히 정확하게 일치했다. 이 논문 저자들은 또한 주크 박스에는 몇 가지 한계가 있으며, 향후 연구는 AI의 능력을 향상시키는 것이 목표라고 언급했다.

저자는 블로그에서 “Jukebox는 음악적 품질, 일관성, 오디오 샘플 길이 및 아티스트, 장르 및 가사를 조절하는 능력을 한 단계 발전 시켰지만, 인간이 만든 음악과는 상당한 차이가 있다. 예를 들어, 생성된 노래는 음악적 일관성을 보여주고, 전통적인 코드 패턴을 따르며 인상적인 솔로를 피처할 수 있지만, 반복되는 코러스와 같은 친숙한 더 큰 구조는 들리지 않는다”고 설명했다.

현재 이 모델은 특정 장르 또는 특정 아티스트의 스타일로 노래를 만들 수 있다. 엘비스 프레슬리(Elvis Presley), 케이티 페리(Katy Perry) 프랭크 시나트라(Frank sinatra) 등 각 스타일의 노래를 생성 할 수 있다. 생성된 파일은 거칠고 듣기에 좋지 않다.