이 데이터 세트는 5개 대륙 10개 국가를 포함하는 다양한 지역에서 수집한 4M 이상의 주석을 단 이미지로 보완된 15K 주석이 달린 비디오 클립으로 구성되어 있다.

'오브젝트론(Objectron)' 데이터 세트 예
'오브젝트론(Objectron)' 데이터 세트 예(사진:구글)

머신러닝은 이미지에 대한 모델 교육만으로 많은 컴퓨터 비전 과제에서 탁월한 정확도를 달성한다. 여기에, 3D 객체 이해와 인식을 접목시키면 증강 현실(AR), 로봇 공학, 자율머신 및 이미지 검색과 같은 광범위한 인공지능 애플리케이션을 강화할 수 있는 큰 잠재력을 보유하게 된다.

구글 AI가 다양한 각도에서 더 많은 물체를 캡처하는 짧은 객체 중심의 비디오 클립 모음인 '오브젝트론(Objectron)' 데이터 세트를 지난 9일 오픈 소스로 공개해 관련 커뮤니티등의 주목을 받고 있다. 이 데이터 세트는 물체를 다양한 각도에서 더 많은 공통 객체를 담고 있는 객체 중심의 비디오 클립 모음으로, 실시간으로 3D 객체를 감지해야 하는 애플리케이션에서 유용하게 활용할 수 있다

각 비디오 클립에는 카메라 포즈와 포인트 클라우드를 포함하는 AR 세션 메타데이터를 함께 제공한다. 또한 데이터에는 개체의 위치, 방향 및 치수를 설명하는 각 개체에 대한 수동 주석이 달린 3D 경계 상자가 포함된다. 이 데이터 세트는 5개 대륙 10개 국가를 포함하는 다양한 지역에서 수집한 4M 이상의 주석을 단 이미지로 보완된 15K 주석이 달린 비디오 클립으로 구성되어 있다.

모바일에서 실행되는 3D 물체 감지 솔루션의 샘플 이미지
모바일에서 실행되는 3D 물체 감지 솔루션의 샘플 이미지

또한 데이터 세트와 함께 신발, 의자, 머그, 카메라 등 네 가지 범주의 물체에 대한 3D 물체 감지 솔루션(다운)도 공유하고 있다. 이러한 모델은 라이브 및 스트리밍 미디어를 위한 크로스 플랫폼 맞춤형 머신러닝 솔루션을 위한 구글의 오픈 소스 프레임 워크 미디어파이프(MediaPipe-다운)에서 출시된다. 이는 온 디바이스로 실시간 손의 움직임 , 홍채 및 신체 자세 추적과 같은 애플리케이션을 지원한다.

이전에 출시 된 단일 단계 Objectron 모델 과 달리 이 최신 버전은 2 단계 아키텍처를 사용한다. 첫 번째 단계에서는 텐서플로우 물체인식(TensorFlow Object Detection) 모델(다운)을 사용하여 개체의 2D 자르기를 찾는다. 두 번째 단계에서는 이미지 자르기를 사용하여 3D 경계 상자를 추정하는 동시에 다음 프레임에 대한 개체의 2D 자르기를 계산하므로 개체 감지기가 모든 프레임을 실행할 필요가 없다. 2 단계 3D 경계 상자 예측기는 Adreno 650 모바일 GPU에서 83FPS로 실행된다.

3D 물체 감지 솔루션의 개요
3D 물체 감지 솔루션의 개요

한편, 사용법 및 자습서를 포함한 '오브젝트론(Objectron)' 데이터 집합의 기술 세부 정보는 데이터 집합 웹 사이트에서 확인할 수 있다. 데이터 집합에는 자전거, 책, 병, 카메라, 시리얼 박스, 의자, 컵, 노트북, 신발 등이 포함되며, 아래과 같은 자산으로 구글 클라우드 스토리지의 오브젝트론 버킷에 저장된다.

비디오 시퀀스, 주석 레이블(개체에 대한 3D 경계 상자), AR 메타데이터(카메라 포즈, 포인트 클라우드, 평면 표면 등), 처리된 데이터 세트(주석이 달린 프레임의 변형된 버전, 이미지용 tf.예: 형식 및 비디오용 SequenceExample 형식), 위에서 설명한 메트릭을 기반으로 평가를 실행하는 지원 스크립트, 데이터를 텐서플로우, 파이토치 및 Jax로 로드하고 "Hello World" 예를 포함한 데이터셋을 시각화하는 지원 스크립트 등이다.

현재, '오브젝트론(Objectron)' 데이터 세트는 깃허브(다운)를 통해 누구다운 받아 사용할 수 있으며, 이 데이터 세트를 사용하여 인기있는 텐서플로우, 파이토치 및 잭스 프레임 워크에서 데이터 세트를 구문 분석하기 위해 데이터 파이프 라인을 오픈 소싱하고 예제로 콜라브 노트북도 제공된다.

구글 AI팀은 이 데이터 세트를 공개함으로써 관련 커뮤니티가 3D 객체 기하학 이해의 한계를 극복하고 뷰 합성, 향상된 3D 표현 및 감독되지 않은 학습과 같은 새로운 연구 및 응용 프로그램을 위해 유용하게 적용되기를 희망한다고 밝혔다.

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지