인간은 대상을 보는 것만으로 대상이 어떤 촉감일지 추론 할 수 있다. 로봇도 다른 감각 간 상호 추론이 가능하다.

MIT 컴퓨터과학 및 인공지능 연구실(CSAIL) 연구자들은 인공지능(AI)이 대상을 촉감을 통해 시각화하거나, 이미지로 촉감을 예측할 수 있는 방법을 제시했다. AI는 시각적인 입력으로부터 현실적인 촉각 신호를 생성하거나, 촉각 입력으로 어떤 물체의 특정한 부분이 직접 접촉되지를 예측할 수 있다.

논문 저자 CSAIL 리윤주(Yunzhu Li) 박사과정은 “모델은 순수한 촉각 감각으로 환경과의 상호 작용을 예측할 수 있다. 시각과 촉각 두 가지 감각을 결합하면 로봇에 객체를 조작하고 파악하는 작업에 필요한 능력을 부여하고, 필요한 데이터도 줄일 수 있다”고 말했다.

연구진은 MIT 다른 연구그룹이 디자인한 젤사이트(GelSight)라는 특수 촉각 센서를 갖춘 KUKA 로봇 팔을 사용했다.간단한 웹 카메라를 사용해 도구, 가정용품, 직물 등 거의 200개의 물체를 12,000번 이상 촬영했다. 이 12,000개의 비디오 클립을 스틸프레임으로 나누어, 팀은 3백만 개가 넘는 시각-촉각 이미지 데이터 세트 ‘VisGel’을 컴파일했다.

물리적 힘에 대한 물체의 반응을 예측하는 로봇에 인간과 유사한 신체 감각을 부여하는 작업은 상호 작용을 이해하는 데 방대한 데이터 세트가 필요하다.

시각과 촉각 기술은 VisGel 데이터 세트 및 생성적 적대 네트워크(GAN)를 활용해 이 문제를 해결하고자 했다. GAN은 시각 또는 촉각 이미지를 사용해 다른 양식의 이미지를 생성한다. 그들은 서로 경쟁하는 “생성기”와 “판별기” 모델을 통해 반복 훈련, 생성기가 판별기를 속일 실제 이미지를 만드는 것을 목표로했다. 판별기는 결정을 내리는 과정을 내부 추론을 공개, 발전기도 반복적으로 발전 할 수 있다.

인간은 물체를 보는 것만으로 그 대상이 어떤 촉감일지를 추론 할 수 있다. 기계가 이 추론을 더 잘 수행하려면 시스템이 먼저 터치 위치를 찾은 다음 해당 지역의 모양과 느낌에 대한 정보를 추론해야한다.

참조 이미지는 로봇과 객체 간의 상호 작용없이 시스템이 객체와 환경에 대한 세부 정보를 인코딩하는 데 도움이 된다. 그런 다음 로봇 팔이 작동, 모델은 현재 프레임을 참조 이미지와 간단히 비교할 수 있으며 터치의 위치와 스케일을 쉽게 식별 할 수 있다. 이것은 시스템에 컴퓨터 마우스 이미지를 제공한 다음 모델이 픽업을 위해 물체를 터치해야한다고 예측하는 영역을 “보는”것과 비슷할 수 있다.

이는 컴퓨터가 보다 안전하고 효율적인 작업을 계획하는 데 크게 도움이 될 수 있다. 시각적 촉각 데이터에 기반해 모델이 촉각 데이터를 기반으로 시각적 이미지를 생성하는 것이 목표였다. 모델은 촉각 이미지를 분석 한 다음 접촉 위치의 모양과 재질을 파악했다. 그런 다음 참조 이미지와 비교했다.

테스트에서 모델에 신발 촉각 데이터가 입력되면 신발 해당 부위의 최적 이미지가 생성 됐다. 이러한 유형의 기능은 표시등이 꺼져 있거나 사람이 맹목적으로 상자 또는 알 수없는 부분에 닿았을 때와 같은 시각적 데이터가 없는 경우 작업을 수행하는 데 도움이 될 수 있다.

현재 데이터 세트는 제어된 환경에서의 상호작용 케이스 정도다. 팀은 더 많은 비정형 영역에서 데이터를 수집하거나 새로운 MIT 촉각 장갑을 사용해 데이터 집합의 크기와 다양성을 향상시키기 위해이 기능을 개선할 계획이다. 터치 만으로 대상의 색상을 파악하거나, 소파를 실제로 누르지 않고 얼마나 부드러운지를 말하는 것과 같이 모드를 전환하는 추론은 더 까다로울 수 있다.

연구자들은 불확실성에 대한보다 견고한 모델을 만들고 가능한 결과의 분포를 확장함으로써 이것이 개선될 수 있다고 말한다. 미래에 이런 유형의 모델은 로봇을 대상으로 한 인식, 파악, 장면 이해 향상, 보조 또는 제조 환경에서 완벽한 인간 – 로봇 통합 지원을 위해 활용할 수 있다.

버클리(Berkeley) 캘리포니아대 박사후 과정 엔드류 오웬스(Andrew Owens)는”이것은 시각적 신호와 터치 신호를 확실하게 번역 할 수있는 최초의 방법” 이라며 “이와 같은 방법은 물체가 강하거나 부드러운 정도, 찻잔을 들 때 손의 뜨거움 등을 로봇 공학적으로 다루는데 유용 할 수 있다. 신호가 너무 다르기 때문에 이것은 매우 어려운 문제”라고 말했다.

논문은 캘리포니아 주 롱 비치(Long Beach)에서 열린 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR2019)에서 발표할 예정이다. 논문은 MIT 러스 테드레크(Russ Tedrake)와 안토니오 톨라바(Antonio Torralba)교수와 작성했다.