투명 개체 데이터세트(ClearGrasp)에는 해당 표면 정규, 분할 마스크, 가장자리 및 깊이가 있는 투명 객체의 사실적 렌더(사진)가 50,000개 이상 포함되어 있다. 또한 데이터 세트에는 다양한 실내 조명 조건, 다양한 천 및 베니어 배경, 무작위 불투명한 물체가 현장 주위에 흩어져 있는 상태에서 촬영된 해당 지면 진실의 깊이를 가진 286개의 실제 영상이 포함되어 있다.
투명 개체 데이터세트(ClearGrasp)에는 해당 표면 정규, 분할 마스크, 가장자리 및 깊이가 있는 투명 객체의 사실적 렌더(사진)가 50,000개 이상 포함되어 있다. 또한 데이터 세트에는 다양한 실내 조명 조건, 다양한 천 및 베니어 배경, 무작위 불투명한 물체가 현장 주위에 흩어져 있는 상태에서 촬영된 해당 지면 진실의 깊이를 가진 286개의 실제 영상이 포함되어 있다.

로봇 조작, 증강현실 등 3D 사물의 위치와 방향을 추정하는 것은 객체 수준의 인식이 수반되는 컴퓨터 비전 애플리케이션의 핵심 문제점 중 하나이다. 이러한 어플리케이션에서, 직접 영향을 미치거나, 혹은 시뮬레이션한 오브젝트를 그 주위에 정확하게 배치하기 위해서, 세계의 오브젝트들의 3D 위치를 파악하는 것이 중요하다.

머신러닝 기법, 특히 Deep Nets(관련 논문, '밀도퓨전: 반복밀도퓨전에 의한 6D 오브젝트 포즈 추정/DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion'- 다운)를 사용한 이 주제에 대한 많은 연구가 있었지만, 대부분은 물체에 대한 거리를 직접 측정할 수 있는 마이크로소프트의 키넥트(Kinect)와 같은 깊이 감지 장치에 의존해왔다.

그러나 빛이 반사되거나 투명한 물체인 경우 직접 깊이 감지가 잘 작동하지 않는다. 예를 들어, 아래 그림은 여러 물체(왼쪽)를 포함하며, 그 중 두 개는 투명한 별이다. 깊이 장치는 별에 대한 좋은 깊이 값을 찾지 못하며, 실제 3D 지점(오른쪽)의 재구성이 매우 미흡하다.

왼쪽: 투명 객체의 RGB 이미지. 오른쪽: 왼쪽의 장면에 대해 재구성된 깊이를 보여주는 4개 패널 영상.맨 위 행은 깊이 이미지를 포함하고 맨 아래 행은 3D 포인트 클라우드를 나타낸다. 왼쪽 패널은 깊이 카메라를 사용하여 재구성되었으며 오른쪽 패널은 ClearGrasp 모델에서 출력된다. ClearGrasp는 별의 깊이를 손상시키지만, 가장 오른쪽의 실제 깊이를 착각한다.(사진:구글)
왼쪽: 투명 객체의 RGB 이미지. 오른쪽: 왼쪽의 장면에 대해 재구성된 깊이를 보여주는 4개 패널 영상.맨 위 행은 깊이 이미지를 포함하고 맨 아래 행은 3D 포인트 클라우드를 나타낸다. 왼쪽 패널은 깊이 카메라를 사용하여 재구성되었으며 오른쪽 패널은 ClearGrasp 모델에서 출력된다. ClearGrasp는 별의 깊이를 손상시키지만, 가장 오른쪽의 실제 깊이를 착각한다.(사진:구글AI)

정확한 3D 데이터를 추론할 수 있는 머신러닝(ML) 기반의 클리어그래스프(ClearGrasp- 논문 및 데이터셋, 코드)에서 제안한 것과 같은 이 문제에 대한 한 가지 해결책은 심층신경망(DNN)을 사용하여 투명 물체의 손상된 깊이 맵을 인페인팅(Inpainting) 하는 것이다.

또한 투명 개체의 단일 RGB-D 영상을 감안할 때, 클리어그래스프는 현장에 있는 모든 투명 표면의 초기 깊이 추정치를 수정하기 위해 사용하는 딥 컨볼루션 네트워크(Deep Convolutional Networks) 추론 표면의 법선에 네트워크, 투명 표면의 마스크 및 폐색 경계를 사용한다( 위 그림 오른쪽). 이 접근 방식은 매우 유망하며 투명한 물체가있는 장면을 깊이에 의존하는 포즈 추정 방법으로 처리할 수 ​​있다. 그러나 인페인팅은 특히 합성 이미지로 완전히 훈련 된 경우 까다로울 수 있으며 여전히 심층적인 오류가 발생할 수 있다.

이 연구는 구글 로봇팀과 스탠포드대학교(Stanford University) 인공지능연구소(Stanford AI Lab) 과 공동으로 지난 CVPR 2020 에서 'KeyPose : 투명 물체에 대한 다중 뷰 3D 라벨링 및 키포인트 추정(KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects- 다운)이란 제목으로 발표됐다.

연구팀은 두 가지 문제를 해결한다. ▶스테레오 센서로 데스크톱 오브젝트에 3D 키포인트를 캡처하고 라벨을 붙이는 쉬운 방법을 확립하는 것과 ▶투명 오브젝트와 같은 도전적인 것을 포함하여 오브젝트에 3D 키포인트를 사용하여 포즈를 정확하게 예측하는 방법을 학습하는 방법인 키포즈를 개발한 것이다.

또한 메소드의 성능을 보여주기 위해 연구팀은 15개의 클리어 객체를 5개 클래스에 48k 3D 키포인트 라벨이 부착된 데이터 세트를 만들어 사용한다. 사물의 느슨한 경계 상자를 주어, 인스턴스(instance)와 카테고리(category) 모델을 모두 훈련시키고, 새로운 텍스처, 포즈, 사물에 대한 일반화를 보여준다. 

특히 논문에서는 3D 키포인트를 직접 예측하여 투명 물체의 깊이를 추정하는 ML 시스템을 설명한다. 이 시스템을 훈련하기 위해 연구팀은 반자동 방식으로 투명한 물체의 이미지에 대한 대규모 실제 데이터 세트를 수집하고 손으로 선택한 3D 키포인트를 사용하여 포즈에 효율적으로 레이블을 지정한다. 그런 다음 심층모델 '키포즈(KeyPose- 데이터세트 다운)'를 학습하여 명시적으로 심도를 계산하지 않고 단안 또는 스테레오 이미지에서 종단 간 3D 키포인트를 추정한다.

한편, 이 모델은 개별 개체와 개체 범주 모두에 대해 훈련 중에 보이거나 보이지 않는 개체에 대해 작동한다. 키포즈는 단안 이미지로 작업 할 수 있지만 스테레오 이미지에서 사용할 수있는 추가 정보를 사용하면 개체에 따라 5mm에서 10mm의 일반적인 오류로 단안 이미지 입력에 비해 2 배 정도 결과를 개선할 수 있다. 이 심층모델 키포즈는 오픈 소스(다운)로 공개돼 누구나 사용할 수 있다. 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지