이스라엘 텔아비브 기반 인공지능(AI) 프로세서 스타트업 하바나랩스(Habana Labs)가 ‘가우디(Gaudi)’ AI훈련 프로세서를 발표했다.

17일(현지시간) 테크크런치에 따르면 이 프로세서는 GPU 기반 시스템을 4배 능가한다. 개별 가우디 칩도 GPU 성능을 뛰어 넘지만, 네트워킹을 통해 잠재력을 최대한 발휘할 수 있다.

가우디는 8개의 100GB 이더넷(Ethernet) 포트를 지원하는 표준 PCIe 카드와 새로운 개방형 연산 프로젝트(Open Compute Project) 가속기 모듈 사양을 준수하는 메자닌 카드로 제공 될 예정이다. 이 카드는 동일한 10개의 100GB 이더넷 포트 또는 20개의 50GB 이더넷 포트를 지원한다. 이 회사는 또한 8개의 메자닌 카드가 있는 시스템도 출시하고 있다.

작년에 하바나랩스는 고야(Goya) 추론 솔루션을 출시했다. 가우디를 통해 엔비디아(NVIDIA) GPU를 통해 하드웨어를 사용하려는 기업을위한 완벽한 솔루션을 제공한다. 전문 하드웨어 덕분에 가우디는 거의 모든 표준 벤치마크에서 ‘Nvidia T4’ 가속기를 저전력으로 쉽게 능가한다.

하바나 CBO 아이탄 메디나(Eitan Medina)는 “CPU와 GPU아키텍처는 심층학습과는 매우 다른 문제를 해결하기위해 출시됐다”라며 “GPU는 우연히 더 높은 수준의 병렬 처리 기능을 갖추고 있기 때문에 더 나은 결과를 얻었다. 그러나 정말 똑똑한 사람들을 한곳에 모여 백지상태에서 시작해 신경망이 어떻게 생겼는지 분석할 수 있다면 더 나은 건축이 탄생한다”고 말했다.

하바나는 지난해 고야 프로세서를 만드는데 이 과정을 거졌다. 그 노하우가 가우디에 적용됐다.

하바나랩스는 모든 표준 AI/기계학습(ML) 프레임워크, ‘ONNX’ 형식을 모두 지원한다.개발자들을 위해 하나의 프로세서에서 다른 프로세서로 쉽게 전환 할 수 있어야한다.

하바나랩스 데이비드 다한(David Dahan) CEO는 가우디가 AI 훈련 프로세서 환경의 현 상태에 파괴적 혁신을 가져올 것이라고 강조했다.

다한은 “AI 모델을 훈련하는 것은 해마다 기하 급수적으로 높은 계산을 필요로하므로 데이터 센터와 클라우드의 긴급한 요구 사항을 해결해 생산성과 확장성을 획기적으로 개선해야한다. 가우디의 혁신적인 아키텍처를 통해 하바나는 표준 기반의 이더넷 연결을 통합하면서 업계 최고의 성능을 제공함으로써 무제한의 확장을 가능하게한다”고 말했다.

비밀은 프로세서 자체뿐만아니라 나머지 시스템 및 다른 프로세서(표준 RDMA RoCE를 사용해)에 연결하는 방법이다.

하바나랩스는 GPU 기반 훈련 시스템을 16GPUs 이상으로 빠르게 확장하면 많은 병목 현상이 발생한다고 주장한다. 그러나 더 큰 모델의 경우 그 필요성이 커지고 있다. 가우디를 사용하면 표준 이더넷 네트워킹 스위치의 수를 늘려 128가우디 시스템으로 쉽게 확장 할 수 있다.

전문분석업체 린리그룹(he Linley Group) 수석 애널리스트는 “신제품을 사용해 하바나는 추론에서부터 훈련에 이르기까지 신경망 기능의 전체 범위를 빠르게 확장했다”며 “가우디는 AI 훈련 가속기 중에서도 강력한 성능과 업계 최고의 전력 효율성을 제공한다. 100G 이더넷 링크를 RoCE 지원과 통합한 최초의 AI프로세서로 업계 표준 구성요소를 사용해 구축한 대형 가속기 클러스터를 지원한다”고 말했다.