“상용 AI 하드웨어 및 SoC(system-on-chip)시스템도 실험 시설에 투자한 수십 억 달러의 투자금을 회수하는 데 중요한 역할을 한다. 이러한 시설에서 과학적 실험 제어를 위한 대기 시간이 짧고 전력이 적은 추론으로 더 복잡하고 지능적인 실험을 수행하고 보다 효율적인 운영이 가능하다. 자율 주행과 같은 AI 하드웨어 산업에 연료를 공급하는 가장 시간에 민감한 상용 애플리케이션도 밀리 초 응답이 필요하고 전자 현미경 및 광원과 같은 DOE 기기는 100나노초 범위(10만배 이상 빠름)에서 응답을 요구할 수 있기 때문에 공동 설계 및 전체 시스템 아키텍처가 중요하다.” -DoE ‘ AI for Science’ 보고서 일부

최근 미국 에너지부(DoE)는 ‘과학을 위한 AI(AI for Science)’ 보고서를 발표했다. 224 페이지 분량의 보고서는 AI 기회를 식별하고 과학에서 AI 활용을 촉진하기 위한 것이다.

2일(현지시각) HPC에 따르면 보고서는 물리학 및 재료 과학 등 16개의 영역을 포괄, 6명의 DoE 산하 연구기관 연구자들(Rick Stevens & Valerie Taylor(Argonne National Laboratory), Jeff Nichols & Arthur Barney McCabe(Oak Ridge National Laboratory); Kathy Yelick& David Brown(Lawrence Berkeley National Laboratory))이 저자로 참여했다.

‘AI for Science’ 보고서는 1000명 이상의 참석자들이 작년7 월과 10월 사이에 열린 DoE 컨퍼런스 참석자들의 핵심 아이디어를 요약하고 정책 우선순위를 도출하려는 노력이다.

보고서에 따르면 참가자들은 새로운 재료의 설계, 발견 및 평가를 가속화하고 새로운 하드웨어 및 소프트웨어 시스템의 개발을 진전시키기 위해 AI 방법의 사용을 기대했다. 점점 더 높은 대역폭의 기기 데이터 스트림 내에서 새로운 과학과 이론을 식별한다.

또한 제어 및 분석 루프에 추론 기능을 삽입해 실험을 개선한다. 광원에서 데이터 센터에 이르는 복잡한 시스템의 설계, 평가, 자율적 운영 및 최적화를 가능하게 한다. 그리고 자율주행 실험실 및 과학적 워크플로우 발전을 촉진한다.

주요 도메인 영역은 화학, 재료 및 나노 과학 / 지구와 환경 과학 / 생물학 및 생명과학 / 고 에너지 물리학 / 핵 물리학 / 퓨전 / 엔지니어링 및 제조 / 스마트 에너지 인프라 / 컴퓨터 과학을 위한 AI / AI 기초와 개방형 문제 / 소프트웨어 환경 및 소프트웨어 연구 / 데이터 수명 주기 및 인프라 / 하드웨어 아키텍처 이미징을 위한 AI / 에지(Edge) AI / 시설 통합 및 AI 생태계 등이다.

각 섹션은 최신 기술, 주요 과제, 향후 1년간 발전, 개발 가속화, 예상 결과 및 참조 등을 포괄했다.

이하 주요 AI 하드웨어 섹션 요약.

수천 개의 특수한 아키텍처(예 : NVIDIA Volta 및 AMD MI60 GPU, Intel 및 Xilinx의 FPGA, Google TPU, SambaNova, Groq, Cerebras)가 있는 시스템은 방대한 데이터 세트에서 AI모델을 훈련해야 한다.

구글(Google)의 TPU 포드에는 2048개의 TPU와 32 테라 바이트의 메모리가 있으며 AI 모델 훈련에 사용된다. 전문화된 텐서 프로세서는 AI 훈련 및 추론에 10만 테라 옵스(tera-ops)를 제공한다. 또한 대규모 데이터 인프라(100 페타바이트 이상) 인 구글 클라우드에 직접 연결된다.

알파고(Alpha Go) 시리즈 경기에 사용되는 구글 TPU의 발전은 특정 목표를 해결하기 위한 하드웨어, 소프트웨어 및 데이터 세트의 개선 공동 디자인이 성능, 성능 및 품질에 큰 이점을 제공한다는 것을 보여준다.

스펙트럼의 다른 쪽 끝에서 에지 디바이스는 종종 매우 낮은 전력에서 낮은 대기 시간 추론을 수행할 수 있어야한다. 업계에서는 텐서 계산 가속기(예 : ARM Pelion, NVIDIA T4, 구글의 Edge TPU 및 인텔의 Movidius) 및 신경망 장치 (예 : IBM의 TrueNorth 및 Intel의 Loihi)를 포함해 AI를 위한 다양한 에지 컴퓨팅 장치에 많은 투자를 했다.

전문가들은 향후 10년 간 이 장치들이 더욱 정교해짐에 따라 컴퓨팅 성능과 에너지 효율성이 크게 향상 될 것으로 예상한다. 예를 들어, NVIDIA는 최근 ‘JetW AGX Xavier’ 플랫폼을 출시했다. 이 플랫폼은 30W 미만에서 작동하며 고정 기능 컨벌루셔널 신경망(CNN) 추론을 위한 하드웨어 가속기(예 : DLA)와 같은 많은 특수 장치를 사용해 첨단 AI 및 컴퓨터비전 알고리즘을 엣지에 배치하기 위한 것이다.

또 다른 예로는 테슬라(Tesla_의 FSD 칩이 있으며 72와트에서 72테라 옵스(초당 72 × 1012 작업)를 제공하고 10밀리 초(구동 속도 응답)로 높은 신뢰성으로 응답할 수 있는 기능을 지원할 수 있다.

DOE 애플리케이션은 전자 현미경 또는 APS 실험에서 실시간 실험 최적화를 위해 10만 배 더 빠른 반응 속도(100 나노초)를 필요로 할 수 있다. 고 에너지 조명 하에서 샘플이 빠르게 분해된다.