세계적으로 AI 추론 칩을 개발하는 100개가 넘는 회사가 있다. 데이터 센터 추론 칩은 경쟁이 치열하다.

일반적으로 CPU와 함께 추론과 훈련에서 엔비디아 GPU(Nvidia GPU)를 AI 가속기로 사용되는 경우가 많다. 추론 분야는 워크로드와 장치 모두 끝없이 확장 될 수 있어 시장 기회는 크다.

데이터 센터 추론장치 벤치마킹은 더 깔끔한 작업이 될 수 있다. AI 카메라 또는 드론 내장 추론 장치는 서버 추론 칩과 다른 아키텍처를 가진 시스템으로 비교가 어렵다.

최근 새로 나온 ‘MLperf’ 추론 벤치마크는 30개 이상 회사 및 조직과 200명 이상 엔지니어 및 실무자들이 만든 결과다. 첫 제출 요청은 14개 회사와 44개 시스템에서 600개가 넘는 측정치를 기록했다.

많은 측정 지점에서 도출된 이러한 측정 기준의 특성으로 인해 수치를 제출한 각 회사가 지배력을 발휘할 수 있는 하나 이상의 영역을 찾는 것은 어렵지 않다. 이는 MLperf를 기반으로 AI 추론에서 각 회사가 주장하는 성과는 사실과 다를 수 있음을 의미한다.

모든 회사가 측정기준은 제각각이다. 그로 인해 누구나 경쟁우위를 자처한다. 모든 결과물 중에서 데이터센터 추론 관련 4개의 상용 프로세서에 대한 결과치로 구글(Google)의 TPUv3, 엔비디아(Nvidia) 튜링 아키텍처(Turing architecture), 하바나(Habana)의 고야(Goya) 칩 및 인텔(Intel) 제온(Xeon P9282)이 포함된다.

다른 시스템 유형으로 인해 확실한 승자 또는 패자를 평가하기가 어렵다. 결과를 가속기 당 수치로 하는 것이 첫 단계다. 그럼에도 불구하고 많은 회사들이 ‘MLPerf’ 훈련 벤치마크에서와 같이 일부 벤치마크 영역을 불완전하거나 기재하지 않았다. MLperf 결과를 기반으로 아키텍처를 실제로 비교하려는 사람은 전력 소비와 상대 비용을 명확하게 아는 것도 불가능한 실정이다.

선택에 따른 결과로 모든 벤더가 선호하는 아키텍처와 차트는 이러한 벤더 중 일부를 보여줄 뿐이다. 이것은 하드웨어 벤치마킹에서 새로운 것은 아니지만, 아키텍처 다양성과 작업량, 양식 팩터 차이가 큰 영역에서는 이 정보가 그 어느 때보다 중요하다.

다양한 폼 팩터 및 애플리케이션 영역을 설명하기 위해 벤치 마크에는 5 가지 구성요소가 있다. MobileNet-v1(정확도 낮음) 및 ResNet-50 v1.5(정확도 높음)를 모두 사용하는 이미지 분류; 저해상도 및 고해상도 모델(MobileNet-v1 및 단일 ResNet-34를 사용한 싱글 샷 검출기)과 GNMT(영어를 독일어로 번역하기 위한 반복 신경망)를 이용한 물체 감지 등이다.

여러 시나리오가 있으며 오프라인 시나리오는 더 간단하다. 예를 들면 이미지 저장 시 사진에 태그를 지정하는 동안 추론을 얼마나 빨리 실행할 수 있는지 등 이다.

대기 시간 임계값 처리량 측정에는 오프라인 및 서버 모두에서 단일 및 다중 스트림(많은 입력 스트림을 사용한 자율주행 등) 시나리오가 있다. 오프라인에서는 정적 배치가 필요하지만 서버에서는 대기 시간이 제한된 상황에서 작업해야 하며 트래픽 패턴에 따라 달라진다.

TNP에 중점을 둔 데이터센터 추론 작업에도 많은 주의를 기울인다. 엔비디아, 하바나 랩(Habana Lab) 등은 결과를 가속기 수치로 세분화했다. 선택한 두 모델(MobileNet-v1 및 ResNet-50 1.5)에 대한 4가지 시나리오(단일 스트림, 멀티 스트림, 서버 및 오프라인)로 구성된 8가지 벤치 마크를 포함하는 이미지 감지 범주만 사용했다.

물체 감지 범주는 제출자가 각 플랫폼에서 서로 다른 모든 반복을 실행하지 않았으므로 결과는 경쟁 하드웨어에서 잘 정렬되지 않았다. 이미지 감지를 위해 세 개의 프로세서는 오프라인 시나리오에서만 ResNet-50 모델과 정렬된다.

credit:thenextplatform.

다음은 이러한 결과를 요약 한 것이다(가능한 프로세서 수가 적은 시스템 사용).

Alibaba Cloud T4 = 5,540 샘플 / 초

Google Cloud TPU = 초당 32,716 개 샘플

하바나 고야 = 초당 14,151 샘플.

이 결과는 작은 작업 부하에만 적용된다. 엔비디아는 보다 철저한 결과 공유 작업을 수행했으며, 시스템별로 그룹화하는 대신 장치 별 수준으로 결과를 분류했다. 데이터 센터 시나리오에서 상업 장치와 R&D, 엣지 또는 모바일 응용 프로그램에 중점을 둔 다른 결과를 사용했다 .

엔비디아 성능은 견실한 것으로 보인다.

인텔에서는 다음과 같은 결과를 발표했다. ‘OpenVINO’ 툴킷을 사용할 때 SSD-MobileNet v1에서 객체 감지를 위해 오프라인 시나리오에서 9,468개 이미지/초 및 서버 시나리오에서 5,262개 이미지/초로 관련 결과 중에서 단일 스트림 측정에서 가장 낮은 대기 시간을 나타냈다.

‘MobileNet v1’에서 ‘ImageNet’ 이미지 분류를 위해 오프라인 시나리오에서 29,203개 이미지/초 및 서버 시나리오에서 27,245개 이미지/초; ‘PyTorch’를 사용할 때 ResNet-50 v1.5 오프라인 시나리오에서 5,966개이미지/초 및 서버 시나리오에서 4,851개 이미지/초 였다.

결과를 표준화하지 않으면 데이터 센터에서 가장 관련성이 높은 것을 제대로 처리 할 수 없게 된다. 전력이나 가격 책정 수치가 없으면 성능이 어느 정도인지 알 수 없다. 실제 의사결정 요소는 더 많은 연구가 필요하다. 워크로드, 디바이스 , 시스템에서 MLperf 워킹그룹이 노력을 기울이는 첫 분야다.

향후 실무 그룹이 벤치마킹과 보고 방식을 세분화함에 따라 자체 분류할 것으로 보인다. 다양한 하드웨어 및 응용 프로그램을 포함하는 메트릭 구축 과제와 벤치마크에 대해 자세히 설명하는 논문도 발표됐다.