인텔 제논 파이(Intel Xeon Phi)가 AI가속기 시장 실패였음에도 불구하고 인텔은 이를 포기하지 않았다. 회사는 여전히 AI 시장의 더 큰 조각을 원한다.

인텔 나빈 라오(Naveen Rao)는 “고객은 단일 유형의 인공 지능이 없기 때문에 다양한 AI 응용 프로그램을 실행할 수 있는 최고의 하드웨어가 없다는 사실을 알게됐다”며 중요한 부분을 지적했다.

CNN, RNN 및 확장성

엔비디아 보도자료(ResNet, Inception 등)는 한 AI유형인 합성곱 신경망(Convolutional Neural Networks,CNN), 이미지 및 비디오 분석 기술에 대한 벤치마크와 제품 프레젠테이션이 위주다.

최근 몇 년 동안 가장 놀라운 돌파구 중 일부는 CNN과 함께 이루어졌다. 레스넷(ResNet) 성능이 널리 보급 된 것은 우연이 아니다. 스텐포드대(Stanford University)와 프린스턴대(Princeton University)의 협력물인 이미지넷(ImageNet) 데이터베이스에는 1400만 개의 이미지가 포함돼 있다. 지난 10년간 이 이미지를 인식하는 AI 성능은 매우 떨어졌다. CNN은 기업이 이 데이터베이스를 그 어느 때보다 더 빠르고 정확하게 분류하려고 할 때 가장 인기있는 AI 중 하나였다.

2012년 초 비교적 단순한 신경 네트워크 알렉사넷(AlexNet)은 이미지넷 분류 경쟁에서 전통적인 기계학습 기술보다 훨씬 더 정확하게 정확도를 달성했다. 이 테스트에서 85 %의 정확도를 얻었는데, 이는 기존의 접근 방식 73 %의 정확도 대비 오류율 거의 절반을 달성했다. 2015년에 인셉션v3(Inception V3)는 이미지를 분류하는 데 있어 3.58 %의 오류율을 보였다. 이는 인간과 비슷하다.

이미지넷 문제는 더욱 어려워졌지만 CNN은 잔여 학습(residual learning) 덕분에 레이어 수를 늘리지 않고도 더 좋아졌다. 이로 인해 가장 유명한 AI 벤치 마크 중 하나 인 유명한 “ResNet”CNN이 됐다.

CNN은 확장성이 매우 뛰어나다. 네트워크 훈련 시간을 줄이면 GPU가 거의 선형으로 확장된다. CNN은 엔비디아를 위한 최상의 기회였다. CNN을 위해 기업들은 많은 비용을 들여 엔비디아 DGX 서버($400k)에 투자하거나 여러 Tesla GPU($7k +)를 구매했다.

그럼에도 AI는 여전히 CNN 이상을 의미한다. RNN(Recurrent Neural Networks)은 음성 인식, 언어 번역 및 시계열로도 널리 사용된다. 이것이 ‘MLperf’ 벤치마크 이니셔티브가 중요한 이유다. 처음으로 CNN에 의해 완전히 지배되지 않는 벤치마크를 얻고 있다. 이미지 및 객체 분류 벤치마크는 물론 CNN이지만 신경망 번역을 통한 RNN 및 협업 필터링도 나타난다.

한편 추천 엔진 테스트조차도 신경망을 기반으로 한다. 기술적으로 말하면 “전통적인”기계 학습 테스트는 포함돼 있지 않다. Dell 벤치마크를 통해 첫 번째 데이터를 살펴보면 모든 신경망이 CNN만큼 확장 할 수 있는 것은 아니라는 것이 분명하다. ResNet CNN은 GPU의 수 만큼 쉽게 확장 되지만, 협업 필터링 방법은 50% 향상된 성능을 제공한다. 실제로, 학술 연구의 상당 부분은 CNN의 최적화 및 적용을 중심이다. RNN과 마찬가지로 이러한 시퀀스 모델링 작업을 처리, 결과적으로 확장성이 떨어지는 RNN을 대체 할 수 있다.

인텔, AI 전체에서 우위 전략

전체적으로 인텔은 다양한 AI 응용 프로그램이 있다는 점을 잘 알고 있다. 많은 실제 시나리오에서 전통적인 기계학습 기술은 CNN보다 뛰어나며 모든 고급 학습이 CNN으로 수행되는 것은 아니다. 그리고 다른 실제 사례에서는 대용량의 RAM을 사용하는 것이 모델을 교육하고 새로운 데이터를 유추하는 데 있어 큰 성능 상 이점이다.

CNN실행에 엔비디아가 큰 이점을 가지고 있음에도 불구하고 하이엔드 제온은 데이터 분석 시장에서 신뢰할 수 있는 대안을 제공 할 수 있다. CNN훈련에서 새로운 케스케이드 레이크 제온(Cascade Lake Xeons)이 NVIDIA GPU보다 우수한 성능을 보일 것으로 기대하는 사람은 아무도 없다. 그러나 인텔이 고가의 테슬라(Tesla) 가속기 대신 더 강력한 제온에 투자하도록 고객을 설득 할 수는 있다.

실제 케이스는 △많은 메모리가 필요한 AI 모델의 추론, △오랜 훈련 시간을 필요로하지 않는 가벼운 인공 지능 모델. △배치 또는 스트림 처리 시간이 모델 교육 시간보다 더 중요한 데이터 아키텍처, △전통적인 비신경망 통계 모델에 의존하는 인공지능 모델 등 이다.

결과적으로 인텔이 CNN작업 부하에서 NVIDIA의 GPU를 대체 할 수 있을 때까지 기회가 생길 수 있다. 인텔은 제온 스케일러블(Xeons Scalable) 제품군에 기능을 추가하고 엔비디아 AI 헤게모니와 싸우기 위해 소프트웨어 스택을 최적화했다. 인텔 자체 파이썬(Python) 배포, 심층학습을 위한 수학 커널 라이브러리 및 데이터 분석 가속 라이브러리와 같은 최적화 AI 소프트웨어(주로 전통적 기계학습용) 등이다.

이는 인텔 제온 스케일러블 프로세서 2세대 모델을 위한 것으로 회사는 새로운 AI 하드웨어 기능을 심층학습(DL) 부스트 이름으로 추가했다. 이는 벡터 뉴럴네트워크 인스트럭션(VNNI) 세트를 포함한다. 이 세트는 여러 요구를 하나의 명령으로 수행 할 수 있다. 3세대 제온 스케일러블 프로세서 쿠퍼 레이크(Cooper Lake)는 ‘bfloat16’에 대한 지원을 추가해 훈련성능을 더 향상시킨다.

요약하면 인텔은 시장을 가벼운 AI 작업 부하로 변경, 데이터 분석 시장의 나머지 부분에 확고한 입지를 구축하는 동시에 전문적인 하드웨어(FPGA, ASIC)를 포트폴리오에 추가하려고 한다. 이는 IT시장에서의 인텔의 경쟁력에 결정적으로 중요하다. 인텔은 데이터센터그룹(DCG) 또는 ‘엔터프라이즈 부품’이 향후 수년간 회사의 주요 성장 엔진으로 자리 매김 할 것이라고 반복해서 말해왔다.

NVIDIA의 대응

엔비디아는 CNN의 한계와, 다른 방법으로 실행되거나 계산 집약적이 아닌 메모리 집약적 응용 프로그램이 많다는 것을 안다. 이에 새로운 ‘RAPIDS’프레임 워크 기반 엔터프라이즈용 데이터과학 플랫폼을 출시했다. 기본적인 아이디어는 데이터 파이프 라인의 GPU가속이 심층학습에만 국한되어서는 안 된다는 것이다.

예를 들어, CuDF를 사용하면 데이터 과학자가 GPU 메모리에 데이터를 로드하고 일괄 처리 할 수 있다. Pandas(데이터 조작을 위한 파이썬 라이브러리)와 유사하다. cuML은 현재 GPU 가속 기계 학습 라이브러리의 제한된 컬렉션이다. 결국 Scikit 훈련 툴킷에서 사용할 수 있는 대부분의 기계학습 알고리즘은 GPU 가속화 및 cuML에서 활용성이 뒷받침해야 한다.

엔비디아는 또한 인메모리 데이터베이스 아파치 애로우(Arrow)를 추가했다. 이는 GPU가 벡터에서 작동하고 결과적으로 메모리의 컬럼형 레이아웃을 선호하기 때문이다. 아파치에로우를 중앙 데이터베이스로 활용해 많은 오버 헤드를 회피한다. Sci-Kit 및 Pandas와 같은 일반적인 Python 라이브러리 GPU 가속 버전은 필요하지만 가벼운 ‘데이터 과학 탐험’작업에만 적합하다.

RAPIDS가 강력한 분산 데이터 처리 프레임 워크 Spark에서도 사용된다는 사실을 확인했지만 CPU 코어를 최대한 활용하고 서버에서 사용할 수 있는 방대한 양의 RAM을 만들기 위해 수년간 최적화 된 프레임 워크에 GPU를 추가하는 것은 쉽지 않다. Spark은 수십 개의 wimpy GPU 코어가 아닌 수십 개의 강력한 서버 코어에서 실행되도록 제작됐다.

두 종류의 메모리 (RAM 및 GPU VRAM)를 혼합하고 Spark의 분산 컴퓨팅 특성을 그대로 유지하는 것은 쉽지 않다. 또한 GPU 기반 시스템에서 실행성 검토와 CPU보다 메모리가 작은 GPU 문제, RAM이 로컬 VRAM의 속도의 일부분이라는 문제도 해결해야 한다.

데이터 분석, 서버 시장 절반 예측

데이터 분석이 핵심이다. 현재 컴퓨팅 집약형 또는 고성능 서버 시장은 총 1,000억 달러 시장 중 약370 억 달러다. NVIDIA는 이 시장이 2023년에 두 배가 될 것이라고 믿는다. 데이터 분석 시장이 전체 서버 시장의 거의 절반을 차지할 것이라는 예측이다.

신경망은 GPU에 훨씬 더 적합하지만 인텔은 데이터 파이프 라인의 대부분이 CPU에서 더 잘 실행되고 가장 집중적이고 확장가능한 신경 네트워크에만 GPU가 요구되도록 할 수 있다.

반면에, NVIDIA가 데이터 파이프 라인의 훨씬 더 많은 부분을 가속화 할 수 있다면, 대부분 인텔의 시장을 빠르게 점유할 것입니다. 이 가운데 IBM과 AMD는 시장 점유율을 확보해야한다. IBM은보다 우수한 NVIDIA GPU 기반 서버를 제공 할 것이며 AMD는 올바른 소프트웨어 환경을 구축하기 위해 노력할 것이다.

*참고(anandtech)

테스팅노트, 벤치마크

CUP퍼포먼스