엔비디아(Nvidia) 는 3 세대 AI 시스템 ‘엔비디아 DGX A100’을 공개했다. 5 페타 플롭의 AI 성능을 제공하고 전체 데이터 센터의 성능과 기능을 처음으로 유연한 단일 플랫폼으로 통합했다.

DGX A100 시스템의 첫 주문은 미국 에너지부(DOE) 아르곤 국립 연구소(Argone National Laboratory)에서 진행했다.

엔비디아의 설립자이자 CEO 젠슨 황(Jensen Huang)은 “NVIDIA DGX A100은 AI개발을 위한 최고의 도구“라며 “NVIDIA DGX는 데이터 분석에서 교육, 추론에 이르기까지 엔드 투 엔드 머신러닝(ML) 워크 플로우를 위해 구축된 최초의 AI 시스템이다. 새로운 DGX의 성능이 크게 향상됨에 따라 ML 엔지니어는 기하 급수적으로 증가하는 AI 모델 및 데이터 크기보다 앞서 갈 수 있다”고 말했다.

업체에 따르면 DGX A100 시스템은 8개의 새로운 A100 Tensor Core GPU를 통합, 최대 AI 데이터 세트를 훈련하기위한 320GB의 메모리와 최신 고속 ‘NVIDIA Mellanox® HDR 200Gbps’ 상호 연결을 제공한다.

또한 A100 멀티인스턴스 GPU 기능을 사용해 DGX A100을 시스템 당 최대 56개의 인스턴스로 분할, 여러 개의 작은 워크로드를 가속화 할 수 있다. 온 디맨드 컴퓨팅 성능과 리소스를 최적화해 완전히 통합된 단일 소프트웨어 정의 플랫폼에서 데이터 분석, 교육 및 추론을 포함한 다양한 워크로드를 가속화할 수 있다.

인텔서 AMD로 CPU 벤더 변경

지난주 엔비디아 GPU 테크놀로지 컨퍼런스(GPU Technology Conference)에서 젠슨 황CEO는 Tesla v100 GPU의 새로운 후속 DGX-2 딥러닝(deep learning) 시스템을 발표했다.

기술적으로 자사 주요 머신러닝(machine-learning) 노드에서 CPU에 AMD를 사용한다는 것은 그리 놀라운 일이 아니다. GPU 기반 머신 러닝은 CPU가 아닌 스토리지 병목 현상이 자주 발생한다. DGX A100에서 사용되는 M.2 및 U.2 인터페이스는 각각 4 개의 PCIe 레인을 사용한다. 즉, PCI Express 3.0에서 PCI Express 4.0으로의 전환은 개별 SSD 당 사용 가능한 스토리지 전송 대역폭이 32Gbps에서 64Gbps로 두 배가됨을 의미한다.

AMD는 상대적으로 마진이 낮은 소비자 그래픽 시장에서 엔비디아의 최대 경쟁 업체일 수 있지만 인텔(Intel)은 시장의 데이터 센터 측면에서 경쟁하고 있다. 인텔 DG1는 Ryzen 7 4800U의 통합 Vega GPU와 경쟁하는 벤치 마크를 유출했다.

제온(Xeon) 서버 CPU 라인업을 채택하지 않는 엔비디아는 2048EU(실행 단위)가 최대 36TFLOPS를 제공할 수있는 Xe HP 4타일 GPU에 대해 더 우려했을 수 있다. 이는 오늘날 DGX에 전력을 공급하는 엔비디아 A100 GPU와 경쟁할 수 있다.

엔비디아에 따르면 추론 훈련을위한 600 개의 개별 CPU와 함께 초기 DGX-1 노드로 구성된 ‘일반 클라우드 클러스터’는 두 워크로드를 모두 처리 할 수있는 5개의 DGX A100 장치로 대체될 수 있다. 이로 인해 하드웨어가 25개의 랙에서 1개의 랙으로, 전력 예산은 630kW에서 28kW로, 1,100만 달러에서 1000만 달러로 줄었다.

이 회사의 A100 SuperPOD는 170개의 인피니벤드 스위치를 통해 140개의 DGX A100 노드와 4PB의 플래시 스토리지를 연결하며 700 페타플롭의 AI 성능을 제공한다. 4 개의 SuperPOD를 자체 ‘SaturnV’ 슈퍼 컴퓨터에 추가했다. 엔디비아에 따르면 SaturnV는 세계에서 가장 빠른 AI 슈퍼 컴퓨터다.

‘Jetson EGX A100’을 사용하면 에지 컴퓨팅에 A100을 사용할 수 있다.