25일 오전 구글코리아 21층 마당에서 열린 ‘구글 AI 포럼 16강: AI 혁신과 로보틱스’ 에서는 인공지능(AI) 딥러닝(Deep Learning)기술과 로보틱스 융합 사례를 소개했다.

이날 포럼에서는 앤디 정(Andy Zeng) 구글 로보틱스 학생연구원(프린스턴대 박사과정)이 화상 연결을 통해 물리학과 딥러닝을 결합한 토싱봇 개발과정과 성과에 대해 설명했다.

구글은 대학연구진 협력해 딥러닝을 활용한 토싱봇(TossingBot)을 개발하고 있다. 토싱봇의 핵심 요소는 물리학과 딥러닝을 통합해 물체를 던지는 학습 로봇이다. 학습이 빠르고 새로운 시나리오에도 적용할 수 있다.

토싱봇은 물리학과 딥러닝을 융합한 하이브리드 컨트롤러를 통해 던지기 학습을 통한 정확도를 높이는 예측한다. 인공 신경망을 이용해 물리 역학, 현실 세계의 노이즈, 변동성을 계산해 던지기를 조정한다. 연구진은 이 시스템을 리지듀얼 피직스(Residual Physics)라고 칭했다.

훈련 전 토싱봇은 물건을 쥐는 것도 어려워한다. 이후 쥐기부터 던지기까지 익숙해진다. 약 14시간 동안 만 번 정도 트레이닝 후 던지기는 85%, 여러 사물이 섞여 있는 바구니에서 특정 사물을 정확히 움켜쥐는 확률은 87%까지 정확도가 높아졌다. 훈련 세팅도 자동화해 사람이 중간에 개입하는 부분도 최소화했다.

엔디 정은 “토싱봇 기능은 하드웨어적으로는 이미 쉽게 활용할 수 있다”며 “로봇에 더 많은 지능을 구현하는 소프트웨어적 개선이 과제로 남아있다. 구글은 AI리더십을 가지고 이런 부분을 리딩하는 역할을 하고 있다”고 말했다.

알고리즘은 구글과 대학 연구진이 함께 개발했다. 알고리즘은 던지기 이외의 다양한 물리적 작용에도 적용, 새로운 스킬을 학습할 수 있다. 외부 환경에서 작동하기 위한 저항 등 다양한 요소도 반영하는 작업을 하고 있다. 다른 로봇을 알고리즘 적으로 개선 적용할 수 있는 부분도 연구하고 있다.

이번 연구에는 18개월간 프린스턴대, 컬럼비아대, MIT, 구글에서 10여명의 연구원들이 참여했다.

이하 강연내용.

최근 AI와 로봇틱 분야에서 놀라운 혁신이 목격되고 있다. 그러나 대부분의 로봇은 물건을 집고 옮기거나 다루는데 사전에 설정된 비정형적 조건이 필요하다.

아마존 로봇 경진대회에서 1등을한 로봇도 움직임이 자연스럽지 못하다. 사람은 이와 다르다. 빠르고 유연하게 물건을 던질 수 있다.

던지기에는 장점이 많다. 원하는 위치에 물체를 빠르게 전달하는 것. 사람은 직관적으로 물리적 감각을 체득한다. 토싱봇은 딥러닝과 물리학을 결합, 원하는 장소에 물건을 빠르게 던져 넣을 수 있다. 다양한 물건을 집어 정해진 상자에 던져 넣을 수 있다.

작동에 대해 로봇 상단 카메라로 결과를 확인, 시간이 지날수록 정확도가 높아진다. 예전 시스템보다 학습속도가 2배정도 빠르다.

로봇, 던지기가 어려운 이유

여러 가지 요인을 고려해야 한다. 먼저 사물을 어떻게 집었는지가 중요하다. 같은 물건도 어느 부분을 쥐느냐에 따라 던지는 결과가 달라진다. 또 다른 요인은 공기역학, 접촉과 관련된 것이다. 예를 들면, 탁구공이 받는 공기저항 등이다.

무작위 사물 모델링은 어려울 수밖에 없다. 기존 로봇이 공이나 다트 등 심플한 물건을 위주로 다룬 이유다.

토싱봇은 쥐는 법과 던지기를 결합해 학습했다. 둘의 상관관계가 크기 때문이다. 두 번째 핵심 아이디어는 물리학과 딥러닝 모델의 접목이다. 하이브리드 컨트롤러가 다양한 역학적 요인을 처리하고 심층학습을 통해 정확도를 높이게 되는 것.

고전적인 모델은 물리학 분석모델을 통해 최선의 행동을 추론하는 접근이었다. 이런 접근은 일반화는 쉽지만 사전 입력된 조건에서만 제대로 기능한다는 한계가 있다. 실제 이 방법이 항상 정확한 것도 아니다. 물리모델이 완벽하지 않기 때문이다.

최근 접근법은 데이터 중심 학습 알고리즘을 만드는 것이다. 이런 접근의 장점은 학습을 통해 정확도를 높이는 것. 물리학 측면에서 최선의 행동모델을 설정하고, 딥러닝 모델을 통해 편차 등 물리학 이외의 부분을 반영한다.

두 가지를 결함한 솔루션을 리지듀얼 피직스 (Residual Physics)라고 칭했다. 이 접근은 던지기 이외의 물리적 운동 분야에도 적용할 수 있다.

세부 체계

3D 카메라로 높이 등 3D맵을 정의한다. 이 뷰를 인식(perception) 네트워크에서 픽셀 단위로 입력, 피직스 컨트롤러를 통해 궤도와 목표지점을 계산하게 된다. 쥐기 네트워크, 던지기 네트워크도 같은 접근을 취한다.

픽셀단위 목표지점 확인, 속도, 쥐기 스코어를 결합해 높은 정확도를 나타내는 결과를 따르게 된다. 다음 던지기의 성공을 토대로 예측의 정확도를 확인하게 된다.

훈련 전 토싱봇은 물건을 쥐는 것도 어려워한다. 이후 쥐기부터 던지기까지 익숙해진다. 만 번 정도 트레이닝 후에는 던지기는 85%, 쥐기는 87%까지 정확도가 높아졌다. 훈련 세팅도 자동화해 사람이 중간에 개입할 필요성도 최소화했다.

모델은 사무용품 등 새로운 물체에도 적용가능하다. 시스템은 훈련을 통해 빠르게 적응했다.

이 접근이 일반적인 사람보다 성과가 좋은 것을 확인했다. 훈련 안 된 새로운 타겟에 테스트 한 결과 리지듀얼 피직스를 사용했을 때 결과가 더 좋았다.

기하학적 신호 학습

토싱봇은 물건의 색보다 기하학적 신호를 통해 학습한다. 바구니에 놓인 물체의 3D맵 픽셀 정보를 네트워크에 입력한다. 다른 물체와의 거리, 형태를 파악한다. 유사한 형태, 질량을 구분해 물체를 인지한다. 2차적인 물리적 속성도 활용한다.

사전설정 없이 토싱봇이 확인한다. 시뮬레이션 분석을 통해 확인한 결과, 던지는 부분의 어느 부분을 많이 쥐는지 확인이 가능하다. 지도학습에서 쥐는 부분과 결과의 정확도를 분석해 활용했다.

*관련 논문 및 영상
TossingBot: Learning to Throw Arbitrary Objects with Residual Physics

*앤디 정(Andy Zeng) 은 프린스턴대(Princeton University)에서 3D 컴퓨터 비전과 로봇 조작에 필요한 머신 러닝을 연구하고 있다. 그는 박사과정에서 6차원 사물 자세 추정 및 3D 기하학적 매칭, 의미분할 및 3D 화면 구현 등 로봇의 인지능력을 위한 다양한 딥러닝 알고리듬을 개발 중이다. 자기지도형 로봇 조작을 위한 효율적인 학습알고리듬 샘플, 데이터 중심 체계가 내재된 비전의 연구 기반을 구축하기 위해 SUNCG(시뮬레이션 모델)와 Matterport3D(실모델)를 비롯해 현재까지 가장 큰 규모의 3D 데이터 세트를 개발했다.