인공지능(AI) 칩과 데이터는 인텔 미래 전략의 두 축이다.

인텔 AI칩 부문은 지난해 10억 달러의 매출을 기록했다.  2022년까지 25억 달러, 2030년까지 연간 30 %의 성장 기회를 기대하고 있다. 인텔의 데이터 중심 매출은 5년 전부터 모든 부문에서 절반을 차지했다.

AI 산업(SW/HW )이 급성장하며 기존 업체 엔비디아(Nvidia), 퀄컴(Qualcomm), 마블(Marvell) 및 AMD와의 경쟁도 심화됐다. 헤일로 테크놀로지(Hailo Technologies), 그래프코어(Graphcore), 웨이브 컴퓨팅(Wave Computing), 에스페란토(Esperanto), 콰드릭(Quadric) 등 스타트업과 아마존도 위협적인 경쟁상대다.

인텔은 공세적 M&A로 업계 선두자리를 지켜왔다. 2015년에 FPGA(Field-Programmable Gate Array) 제조업체 알테라(Altera)를, 1년 후 너바나(Nervana)를 인수, 하드웨어 플랫폼 제품을 위한 완전히 새로운 세대 AI가속기 칩셋을 준비했다.

인텔 선임 부사장 그레고리 브라이언트(Gregory Bryant)는 28일 대만 타이베이에서 열린 컴퓨텍스 2019에서 5배 가속화된 성능으로 광범위한 인공지능(AI) 기반을 제공하는 10나노(10nm) 10세대 인텔 코어 프로세서를 선보였다. 10나노 아이스레이크 아키텍처(10-nanometer Ice Lake architecture)는 경쟁제품보다 8.8 배 더 높은 AI 추론 처리량을 제공할 것이라고 밝혔다.

“전력효율 가속칩 중점”

27일(현지시간) 미국 온라인매체 벤처비트에따르면 지난해 8 월, 인텔은 플랫폼에 구속 받지 않는 인공지능 모델 제품군을 개발하는 벤처 기업인 벌텍스.ai(Vertex.ai)를 인수했다.

인텔 부회장 겸 설계총괄 가디 싱어(Gadi Singer)는 광 기반 AI 가속칩에 인텔 미래를 제시했다. 싱어는 “인공지능 하드웨어는 수십억 달러의 기회다. 우리가 여러 제품 라인에 투자할 수 있다는 사실은 수요가 광범위하게 확대되기 때문이다. 전력효율 민감성을 가진 가속칩 등에 중점을 둘 것이다. 이는 보완적인 포트폴리오에 투자할 가치있는 영역”이라고 말했다.

싱어는 소프트웨어를 쉽게 개발할 수 없다면 하드웨어는 아무것도 아니라고 지적했다. 인텔은 AI 소프트웨어 생태계 부분을 소홀히 하지 않도록 주의를 기울였다. 지난 4월에는 다중 프로세서 아키텍처에서 어셈블리 코드를 최적화하는 신경망 모델 컴파일러(nGraph)를 오픈 소스로 발표했다. 같은 시기에 인텔은 컴퓨팅 엔진을 다양한 프로세서, 그래픽칩, FPGA 및 기타 가속기에 매핑 할 수 있는 도구모음 ‘One API’를 공개했다.

또한 지난 5월에 새로 조직된 AI 랩(Lab)은 자연어 처리(NLP)를 위한 크로스 플랫폼 라이브러리 NLP Architect를 자유롭게 사용할 수 있게 했다. NLP Architect는 이름 엔티티 인식, 의도 추출 및 의미 구문분석 기능을 갖춘 대화식 어시스턴트를 임베딩하고 벤치마킹하도록 설계됐다.

인텔은 이 모델의 크기를 줄이기 위해 대상 작업과 관련없는 AI모델 비트를 제거하는 데 사용할 수 있는 신경망 라이브러리를 제공한다. 로봇과 자율주행 자동차 시나리오를 위한 훈련에 AI 에이전트를 내장 할 수 있는 강화학습 프레임워크 코치(Coach)도 있다.

‘Spring 2018’에서는 객체감지, 얼굴인식 및 객체추적을 위한 사전훈련 AI모델을 포함한 AI 에지 컴퓨팅 개발을 위한 툴세트 OpenVINO(Open Visual INference & Neural Network Optimization)를 출시했다. 그것은 FPGA 등 추론을 위해 특별히 제작된 CPU 또는 칩과 함께 작동하며 GE 헬스케어(Healthcare) 의료 이미징, 도하(Dahua) 등 스마트도시 서비스에 도입됐다.

싱어는 OpenVINO가 비디오 프로세싱, 컴퓨터 비전, 기계 학습 및 파이프 라인 최적화를 단일 패키지에 결합한 인텔의 컴퓨터 비전 소프트웨어 개발 키트(SDK)를 보완하기 위한 것이라고 밝혔다.  이들은 인텔 ‘Movidius Neural Compute API’와 동일 제품 군에 속하며 C, C ++ 및 Python과 같은 프로그래밍 언어로 앱 개발을 단순화하는 것을 목표로 한다.

이 제품군 중 상당수는 Xeon Scalable 프로세서 기반의 클라우드 호스팅 AI 모델 훈련 및 추론 플랫폼인 인텔 ‘AI DevCloud’에서 실행된다. DevCloud는 확장 가능한 스토리지 및 컴퓨팅 리소스를 제공, 개발자는 제조업체(Aaeon Technologies 등)의 미니-PCIe 개발 보드 등 하드웨어에 대해 모델을 원격으로 테스트, 최적화 및 검증 할 수 있다.

대부분 인공지능 시스템의 중심에 있는 신경 네트워크는 뉴런 또는 생물학적 뉴런을 느슨하게 모델링 한 수학적 기능으로 구성된다. 이들은 다른 뉴런에 신호를 전송하는 ‘시냅스’에 의해 연결되며 레이어로 배열된다. 이러한 신호 – 신경 네트워크에 입력되는 데이터 또는 입력은 각 레이어에 전달되고 각 연결의 시냅스 강도(가중치)를 부여, 네트워크를 조정한다. 시간이 지남에 따라 네트워크는 데이터 세트에서 기능을 추출하고 교차 샘플 추세를 식별해 결과 예측을 학습한다.

신경망은 원본 이미지, 비디오, 오디오 또는 텍스트를 처리하지 않는다. 오히려 훈련 자료의 샘플은 스칼라(단일 숫자), 벡터(스칼라 정렬된 배열) 및 행렬(하나 이상의 열과 하나 이상의 행으로 배열된 스칼라)과 같은 다차원 배열로 대수적으로 변형된다. 스칼라, 벡터 및 행렬 – 텐서 -을 캡슐화하는 네 번째 엔티티 유형은 유효한 선형변환(또는 관계)에 대한 설명을 추가한다.

예를 들어, 수백만 개의 픽셀을 포함하는 단일 이미지는 큰 숫자 행렬로 변형 될 수 있지만 오디오로 녹음한 단어 및 구는 벡터로 매핑 될 수 있다. 일부 하드웨어는 이러한 통계 작업을 다른 작업보다 효율적으로 처리한다. 프로세서는 일반적으로 복잡한 추세 계산과 관련된 추론 및 일부 훈련, 특히 벡터 신경망 명령어와 ‘DL Boost AI’라고 하는 심층학습(DL) 소프트웨어 최적화가 결합한 인텔 2 세대 ‘Xeon Scalable CPU’와 같은 훈련에 충분하다. 이를 위해 인텔은 2 세대 Xeon Scalable CPU가 데이터 센터 추론의 60 %를 차지하는 AI작업 부하에 대해 최대 2.4배의 성능을 제공하며 이미지 인식, 개체 탐지 및 작업 추론, 이미지 세분화와 같은 추론 작업에 대해 최대 14배의 성능을 제공한다고 주장한다. 

인텔은 10나노 아이스레이크 아키텍처(10-nanometer Ice Lake architecture)가 경쟁제품보다 8.8 배 더 높은 AI 추론 처리량을 제공 할 것이라고 주장했다. 가장 까다로운 심층학습 중 일부는 텐서 연산을 필요로 하며, 그래픽카드와 특수 설계된 전용 칩 ASIC(Application-Specific Integrated Circuit)이 이러한 작업에 유리하다.  이는 이들이 수백만 개의 수학계산을 동시에 수행 할 수있는 수천 개의 코어를 포함하기 때문이다.

싱어는 “CPU를 매우 효율적으로 사용한다고 해도 텐서 연산이 필요한 경우가 있다. 심층 학습에서 가장 까다로운 과제는 … 다차원 배열과 텐서(tensors)에 대한 모든 산술연산을 하는 것 “이라며 “솔루션 아키텍처 관점에서 볼 때, 소프트웨어 최적화와 하드웨어 추가 기능 측면에서 지속적으로 CPU를 향상시키는 것은 의미가 있다. (그러나)CPU만으로는 이러한 모든 유형을 다루기에는 충분하지 않다”고 말했다.

신경망 가속엔진

인텔의 ’16nm Myriad X VPU’ 비전 프로세서는 최대 180Hz에서 이중(double) 720p피드를 처리 할 수 있는 스테레오 블록과 8개 센서에서 최대 4K 비디오 해상도를위한 하드웨어 기반 인코딩을 지원한다. 온디바이스 프로세서는 이미지 신호 처리 및 추론에 최적화됐다. 인텔 ‘NCE(Neural Compute Engine)’, 네이티브 FP16 및 고정 소수점 8비트 지원 기능을 갖춘 전용 하드웨어 가속기를 갖추고 있다.

인텔은 이 칩이 4테라 플롭스의 계산량과 1조 규모 초당 연산 전용 신경망 컴퓨팅을 달성 할 수 있다고 주장한다. 심층신경망 추론에서 이전 모델(Myriad 2) 성능보다 약 10배 개선됐다.

FPGA는 하드웨어가 일반적이고 광범위한 컴퓨팅 및 데이터 기능을 목표로 하는 경향이 있다. 특수 목적의 가속기와는 다르다. 그러나 프로그래밍이 가능하다는 장점이 있어 개발자가 제조 후 구성 및 재구성 할 수 있다. 이는 마이크로소프트(MS)가 심층 신경망 훈련 및 개발을 가속화하기 위해 최적화된 클라우드 서비스(Project Brainwave)에 인텔 ‘Stratix 10 FPGA’를 선택한 이유 중 하나다.

인텔은 엔터프라이즈 네트워크 및 데이터센터에서 ‘데이터 중심’문제를 해결할 수 있도록 설계된 새로운 10nm 임베디드 칩셋 ‘Agilex’의 최첨단 FPGA 솔루션을 제공한다. Agilex제품은 아날로그, 메모리, 컴퓨팅 및 사용자 정의 I / O 구성요소(DDR5, HBM 및 Intel Optane DC 포함) 등 3D 시스템 패키지를 특징으로 한다. 인텔 One API 지원, ASIC 마이그레이션 경로를 제공한다.

인텔은 애질렉스 FPGA가 2 세대 ‘HyperFlex’ 아키텍처 덕분에 인텔 14nm Stratix 10 FPGA에 비해 40 % 더 향상된 성능 또는 40 % 낮은 총 전력을 제공 할 수 있다고 주장한다.