AI 워크로드 가속칩을 개발하는 영국 그래프코어(Graphcore) IPU(Intelligence Processing Unit)가 에저(Azure)에 채택됐다. 마이크로소프트(Microsoft) 클라우드에 그래프코어 칩을 공개 채택한 것은 이번이 처음이다.

그라프코어는 자연어처리(NLP) 경계 확장에 중점을 두고 있으며, 기계 지능 개선에 우선순위를 두고 있다.

그래프코어 공동창립자 사이먼 놀스(Simon Knowles, 왼쪽)와 니겔 툰(Nigel Toon). credit: Graphcore.

2016년 사이먼 놀스(Simon Knowles)와 나이젤 툰(Nigel Toon)이 설립한 그래프코어는 현재까지 로버트 보쉬 벤처캐피털(Robert Bosch Venture Capita), 삼성, 아마데우스캐피털파트너스(Amadeus Capital Partners), C4벤처스, 드라퍼 에스프리트(Draper Esprit), 파운데이션 캐피털, 피탕고 캐피털(Pitango Capital), 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스하사비스(Demis Hassabis) 로부터 3억 달러를 모금, 15억 달러 가치 평가를 받고 있다. 첫 상용 제품은 2018년에 출시된 16나노미터 PCI Express 카드 ‘C2’로 이 패키지가 에저에 론칭 됐다.

툰은 “마이크로소프트와 그래프코어는 2년 넘게 긴밀하게 협력하고 있다. 엔지니어인 마크 트레블레이가 이끄는 마이크로소프트 팀은 에저 시스템을 개발하고 IPU에 대한 고급 기계 비전과 자연 언어 처리 모델을 향상시켜 왔다”며 “[이 제품들]이 출시를 위해 한동안 다수의 주요 초기 고객 및 파트너들과 광범위하게 협력하고 있다”고 밝혔다.

콜로서스(Colossus) IPU 칩. credit : Graphcore .

C2는 두 개의 상호 연결된 ‘콜로서스(Colossus) IPU’로 각각 16코어 팩과 236억 트랜지스터로 구성됐다. 단일 칩의 1,216 IPU는 코어당 최대 100GFLOPS(1GFLOP은 초당 약 10억 부동 소수점 연산)이상으로 300MB 메모리와 페어 됐다. 최대 1만개의 프로그램을 병렬로 실행할 수 있다. 그래프코어에 따르면 칩 메모리 대역폭은 45TB/s, C2 90TB/s 전체 대역폭을 감안하면 이론적인 최대치는 HBM2 그래픽 칩 메모리보다 100배 이상 제공한다.

C2는 AI 기계 학습을 위해 고안된 그래프코어 소프트웨어 스텍 ‘Poplar’와 함께 작동하도록 설계됐다. 구글 텐서플로우 프레임워크와 ONNX(Open Neural Network Exchange, 호환 가능한 AI 모델 생태계)과 통합됐다. 페이스북 파이토치(PyTorch)와 호환도 2020년 초까지 완료한다는 계획이다.

그래프코어는 IPU 효율성에 대해 구글의 양방향 인코더 표현방식(BERT)으로 최고 성능과 정확도를 달성했다고 밝혔다. 이 모델은 일련의 데이터세트를 사전 훈련해 문장 간의 관계를 학습하는 언어 모델이다. 한 대의 IPU 서버가 8개의 C2카드를 탑재, 56시간 동안 하나의 버트 베이스(BERT Base)를 훈련, 평균적으로 추론 처리량이 3배, 대기 시간이 20% 이상 향상됐다고 주장했다.

credit : Graphcore .

이미지 인식 측면에서, 그래프코어는 유럽 검색엔진 ‘콴트(Qwant’가 IPU에서 페이스북 모듈형 ‘ResNeXt-101’ 아키텍처를 실행하는 데 성공했다. 콴트와 그래프코어는 이미지 검색에서 3.5배 더 높은 성능을 보고했다.

확률론 학습 MCMC(Markov Chain Monte Carlo)기반 모델에서도 IPU는 기존 하드웨어로 2시간 이상 걸린 작업을 4분 30초 만에 최적화할 수 있었다. 훈련 시간은 26배 빨랐다.

그룹 콘볼루션(즉, 신호 및 영상 처리에서 교차 상관) 처리 속도도 최대 77배까지 향상했다.

이와함께 그래프코어는 훈련 모델별로 기존 시장 선도 프로세서와의 구체적인 벤치마크 비교 결과를 제시했다.

오토엔코더 훈련

오토인코더(AutoEncoder) 모델은 예를 들어 이전의 시청 경험에 기초한 온라인 TV 시청자들에게 영화를 추천하는 등 유용한 예측을 제공하기 위해 추천시스템에서 필터링을 수행하는 데 사용될 수 있다. 이 자동인코더 모델은 공개된 Netflix 데이터 세트를 사용해 “협업적 필터링을 위한 심층 오토엔코더 훈련” 논문 기반 모델로 테스트한 결과 C2는 동급 전력으로 선도 프로세서에 비해 2배 이상 성능을 보였다.

시계열 분석: 판매 예측 모델 훈련

이 벤치마크는 피처 임베딩 결합된 다중 계층 인식(MLP) 네트워크를 구성하는 시계열 분석에 사용되는 전형적인 모델을 보여준다. 이 모델은 원래 로스만(Rossmann) 경쟁 데이터세트의 특징 집합을 고려할 때 특정 날짜의 판매량을 예측한다. 비교 테스트의 결과, 동일 전력 및 기판 크기(1,024) 선도 프로세서 대비 15배 C2 IPU의 성능 우위를 보여준다.

강화학습(Reinforcement Learning)

강화학습(RL)은 비지도 학습 방식으로 게임을 하는 방법을 가르치기 위해 사용돼 왔다. 강화 학습은 기계 지능 시스템이 이전 기록을 기억하고 이를 사용해 정책을 학습할 것을 요구한다. 대기 시간이 짧고 복잡한 상태에 대한 빠른 접근이 중요하다. IPU는 최적화 없이 처리량(10배)을 크게 개선해 훈련 시간이 훨씬 더 빨랐다.