인공지능(AI) 프로세서 디자인에서 AI 기계학습(machine learning) 접근이 성과를 거두고 있다. 구글 리서치(Google Research) 과학자들은 6시간 만에 새로운 AI 가속칩 설계가 가능하다고 주장했다.

구글AI(Google AI) 리더 제프 딘(Jeff Dean)이 공동 저술한 프리 프린트 논문(Chip Placement with Deep Reinforcement Learning)에서 학습을 통해 자가 개선할 수 있는 AI 칩 설계 심층 강화학습 모델을 제시했다.

연구에서는 평균 6시간 이내에 설계를 완성한다고 주장하는데, 이는 전문가들이 루프를 처리하는 데 걸리는 몇 주보다 훨씬 빠르다.

앞서 3월에 발표 된 논문(하단 참조)에서 구글 엔지니어가 제안한 기술을 바탕으로 하는 이 연구는 완전히 새로운 것은 아니지만 온칩 트랜지스터 배치를 자동화하는데 기여할 수 있다.

이 기술을 공개하면 현금이 부족한 스타트업이 AI 및 기타 특수 목적을 위해 자체 칩을 손쉽게 개발할 수 있다. 또한, 칩 설계 주기를 단축, 하드웨어 관련 연구를 촉진할 수 있다.

구글 과학자들에 따르면 기본적으로 설계 프로세스에서 일부 레이아웃을 수행하는 데 도움이 되는 디자인 도구가 있지만 배치 및 라우팅 전문가가 이러한 디자인 도구를 사용해 여러 차례 반복이 필요했다,

영역 및 전력 및 와이어 길이에 대한 올바른 제약 조건을 가지고 칩에 실제로 배치하고자 하는 설계에서 실제로 설계하고자하는 설계에서 실제로 모든 설계 역할 또는 수행중인 제조 프로세스를 충족시키는 것은 여러 주가 걸리는 과정이다.

이번 연구는 특정 칩에 대한 (컴포넌트) 배치 게임을 배우는 기계 학습 모델을 제시할 수 있다. 이 접근 방식은 로직 게이트, 메모리 등 “넷리스트(netlist)”그래프를 칩 캔버스에 배치해 설계가 전력, 성능 및 면적(PPA)을 최적화하는 동시에 배치 밀도 및 라우팅 혼잡에 대한 제약 조건을 준수하도록 한다.

그래프의 크기는 수천 개의 클러스터로 그룹화 된 수백만에서 수십억 개의 노드로, 일반적으로 대상 메트릭을 평가하는 데 몇 시간에서 하루가 걸린다. 연구원들은 강화 학습을 통해 훈련 된 에이전트가 칩 배치를 최적화하도록 지시하는 프레임 워크를 고안했다.

논문에 따르면 강화학습(RL) 에이전트는 보상을 통해 목표를 완수하기 위해 동기가 부여된다. 이 에이전트는 누적 보상을 극대화 할 수 있는 배치를 학습하게 된다. 넷리스트, 배치할 현재 노드의 ID 및 넷리스트의 메타 데이터 반도체 기술에서 정책 AI 모델은 사용 가능한 배치 위치에 대한 확률 분포를 출력하는 반면, 값 모델은 현재 배치에 대한 예상 보상을 추정한다.

에이전트는 칩에 넷리스트를 완료 할 때까지 구성 요소를 순차적으로 배치하고 음의 가중 프록시 파장(전력 및 성능과 관련됨)과 도표화(밀도 제약으로) 혼잡이 기록될 때까지 보상을 받지 않습니다. 에이전트가 먼저 배치 할 컴포넌트를 선택하도록 하기 위해 컴포넌트는 내림차순으로 정렬된다. 더 큰 부분을 먼저 배치하면 나중에 배치 할 가능성이 줄어든다.

에이전트 훈련에는 1만 개의 칩 배치 데이터 세트를 작성해야 했다. 여기서 입력은 주어진 배치와 연관된 상태이고 레이블은 배치에 대한 보상이다(와이어 길이 및 정체 등). 연구원들은 먼저 5 개의 서로 다른 칩 넷리스트를 선택해 AI 알고리즘을 적용, 각 넷리스트에 대해 2,000개의 다양한 배치를 만들었다.

실험에서 공동 저자들은 더 많은 칩에서 프레임 워크를 훈련할수록 훈련 과정을 가속화하고 고품질의 결과를 더 빨리 생성할 수 있다고 보고했다.
실제로 그들은 최고 기준과 비교해 구글의 맞춤형 AI 가속칩인 TPU (Google Tensor Processing Unit)에서 우수한 PPA를 달성했다고 주장한다.

연구원들은 “새로운 칩의 배치를 처음부터 최적화하는 기존의 방법과는 달리, 우리의 작업은 이전 칩 배치에서 얻은 지식을 활용해 시간이 지남에 따라 더 나아질 것이다. 또한, 이 방법을 사용하면 다른 접근 방식에서와 같이 이러한 기능의 근사치를 정의할 필요 없이 와이어 길이, 밀도 및 혼잡과 같은 대상 메트릭을 직접 최적화 할 수 있다. 우리 접근은 새로운 비용 함수를 사용할 수 있게 되면서 쉽게 통합할 수 있을 뿐만 아니라 (타이밍, 전력 제한 등)주어진 칩 블록의 요구에 따라 상대적 중요도를 가중할 수 있다”고 설명했다.