최첨단 인공지능(AI) 시스템을 교육하는 데는 엄청난 컴퓨팅 자원을 필요로 한다. 과학자들은 단일 컴퓨터에서 최첨단 AI를 훈련할 수 있는 방법을 제시했다.

오픈AI(OpenAI)의 2018보고서에 따르면 가장 강력한 AI를 훈련시키는 데 사용되는 처리 능력이 3~4개월마다 두 배 속도로 증가하고 있다. 데이터 접근법 중 하나는 AI가 수백만 번의 시뮬레이션을 반복해 시행착오를 통해 학습하는 심층 강화학습(deep reinforcement learning)으로 수백 개의 CPU와 GPU 서버가 필요했다.

셀레브라스 시스템(Cerebras System)의 웨이퍼 스케일 엔진(Wafer Scale Engine)은 AI 훈련에 완벽하게 최적화 된 단일 대형칩이지만 채택 비용이 수백만 달러에 달한다.

USC(University of Southern California)와 인텔 랩스(Intel Labs) 팀은 연구실에서 일반적으로 사용 가능한 하드웨어로 심층 강화학습(RL) 알고리즘을 훈련할 수 있는 방법을 찾았다.

이번 주 2020 국제 머신러닝 컨퍼런스(ICML)에서 발표한 논문에서 그들은 비디오 게임 둠(Doom)에서 AI훈련을 위해 단일 고급 워크스테이션을 사용하는 방법을 소개했다.

또한 일반 컴퓨팅 성능의 일부를 사용해 딥마인드가 생성한 30개의 다양한 3D 첼린지를 해결한다.

USC 대학원생 알렉세이 페트렌코(Aleksei Petrenko)는 인텔 여름 인턴쉽이 끝나자 인텔 슈퍼 컴퓨팅 클러스터에 대한 접근 권한을 잃은 상황에서 더 간단한 시스템에서 작업을 계속할 수 있는 방법을 찾았다.

심층 RL에 대한 선도적 접근 방식은 특정 목표 달성에 대한 보상을 제공하는 AI 환경을 시뮬레이션 환경에 배치, 이 에이전트는 최상의 전략을 수행하기 위한 피드백으로 사용한다.

여기에는 세 가지 주요 계산 작업이 포함된다. 환경과 에이전트 시뮬레이션, 학습된 규칙에 따라 다음에 수행할 작업 결정, 이 결과를 반영한 정책 업데이트 등이다.

연구팀은 훈련이 항상 가장 느린 과정에서 제한되지만 이 세 가지 작업은 종종 표준 심층 RL 접근방식에 얽혀있어 개별적으로 최적화하기가 어렵다고 말한다. 샘플 팩토리(Sample Factory)라는 새로운 접근 방식은 이들을 분리해 최고 속도로 모든 리소스를 실행할 수 있도록 했다.

프로세스 간 데이터는 여러 시스템에 분산돼 병목 현상을 낳았다. 연구팀은 모든 프로세스를 즉시 접근할 수 있는 공유 메모리에 모든 데이터를 넣음으로써 단일 머신에서 작업, 심층 RL 접근 방식에 비해 속도를 크게 향상했다.

연구원들은 36코어 CPU와 하나의 GPU가 장착된 단일 머신을 사용해 아타리(Atari) 및 둠 비디오 게임을 훈련, 초당 약 14만 프레임을 처리했다. 3D 훈련 환경 딥마인드 랩(DeepMind Lab)에서는 초당 4만 프레임을 기록했다.

프레임 속도가 훈련 시간으로 어떻게 변환되는지 확인하기 위해 팀은 3월에 오픈소스로 제공되는 구글 브레인(Google Brain) 알고리즘을 사용해 RL 효율성을 획기적으로 높이도록 설계된 샘플 팩토리를 테스트했다. 샘플 팩토리는 둠(Doom)에서 다른 알고리즘에 비해 4분의 1의 시간에 2개의 간단한 작업을 훈련했다. 또한 팀은 보다 강력한 36코어 4 GPU 머신을 사용해 딥마인드 랩에서 30가지 과제에 대한 접근 방식을 테스트했다. 그 결과 AI는 딥마인드가 도전 과제를 해결하는 데 사용한 대규모 컴퓨팅 클러스터에서 훈련한 원래 AI보다 성능이 뛰어났다.

프랑스 리옹 INSA(Institut National des Sciences Appliquées de Lyon)의 심층 RL연구원 에드워드 비칭(Edward Beeching)은 지난해 페이스북이 발표한 3D 시뮬레이터(Habitat)와 같은 메모리 집약적 문제로 이 접근법이 어려움을 겪을 수 있다고 IEEE 스펙트럼에서 지적했다.

그러나 그는 이런 종류의 효율적인 훈련 방법이 소규모 연구팀에게는 매우 중요하며, 기존에 비해 4배나 효율이 증가한 것이라고 덧붙였다.