9개국 13개 대학과 2개 연구소로 구성된 컨소시엄을 구성했으며, 700명이 넘는 참가자가 스스로의 일상생활을 하는 모습을 담은 2,200시간 이상의 1인칭 비디오를 특징으로

'에고4D(Ego4D)' 로고 이미지
'에고4D(Ego4D)' 로고 이미지

1인칭 관점에서 세상을 이해하는 인공지능(AI)은 증강현실(AR) 안경과 가상현실(VR) 헤드셋 같은 기기가 스마트폰처럼 일상생활에서 유용해지면서 몰입적 경험의 새로운 시대를 열어줄 수 있다.

예를 들어, 드럼 레슨을 하는 동안 막대기를 잡는 방법을 정확하게 표시하고, 오늘 저녁 취향에 맞는 레시피를 안내하고, 잃어버린 열쇠를 찾도록 돕거나, 기억을 눈앞에서 그려내는 홀로그램으로 기억하는 AR 장치를 상상해 본다.

이러한 새로운 기술을 구축하기 위해서는 AI가 흔히 자기중심적 인식이라고 불리는 1인칭 관점에서 인간처럼 세상을 이해하고 상호작용하도록 학습돼야 된다.

그러나, 오늘날의 컴퓨터 비전(CV) 시스템은 일반적으로 카메라가 단지 그 행동의 구경꾼일 뿐인 3인칭 관점에서 포착되는 수백만 장의 사진과 비디오로부터 학습한다. 여기에, 페이스북 AI의 수석 연구원 크리스틴 그라우만(Kristen Grauman)은 "차세대 AI 시스템은 완전히 다른 종류의 데이터, 즉 방관자가 아닌 행동의 내 중심에서 세계를 보여주는 비디오로부터 배워야 할 것"이라고 말한다.

페이스북 AI는 인공지능이 자기중심적으로 인식하는 과제를 해결하기 위한 야심찬 장기 프로젝트인 '에고4D(Ego4D)'를 지난 14일 발표했다. 9개국 13개 대학과 2개 연구소로 구성된 컨소시엄을 구성했으며, 700명이 넘는 참가자가 스스로의 일상생활을 하는 모습을 담은 2,200시간 이상의 1인칭 비디오를 특징으로 했다.

'에고4D(Ego4D)' 컨소시엄 15개 참가 대학 등 로고 이미지
'에고4D(Ego4D)' 컨소시엄 15개 참가 대학 등 로고 이미지

13개 대학은 조지아공과대학, 매사추세츠공과대학(MIT), 카네기멜론대학교, 미네소타대학교, 인디애나대학교, 펜실베니아대학교, 사우디 킹 압둘라 과학기술대학교(KAUST), 이탈리아 카타니아대학교, 일본 도쿄대학, 영국 브리스톨대학교, 싱가포르국립대학교, 인도 하이데라바드공과대학교(International Institute of Information Technology, Hyderabad, India), 콜롬비아 안데스대학(University of los Andes) 등이다.

이번 프로젝트로 커뮤니티에서 공개적으로 사용할 수 있는 자기중심적 데이터의 규모를 10배 이상 증가시키며, 영상 시간 측면에서 설정된 다른 데이터보다 20배 이상 크다. 페이스북은 이 프로젝트에 참가한 대학들에게 자금을 지원했다.

페이스북 AI는 이 컨소시엄과 페이스북 리얼리티 랩스 리서치(FRL Research. 이하, FRLR)와 공동으로 향후, AI 비서를 위한 실제 애플리케이션으로의 발전을 촉진할 1인칭 시각 경험을 중심으로 5가지 벤치마크 과제를 개발했다.

Ego4D의 다섯 가지 벤치마크는 다음과 같다.

▷에피소드 기억: 언제 일어났습니까? (예, "내가 열쇠를 어디에 두었습니까?")

▷예측: 다음에는 무엇을 할 것 같습니까? (예, "잠깐, 당신은 이 레시피에 소금을 첨가했습니다")

▷손과 물체 조작: 나는 무엇을 하고 있는가? (예, "북 연주하는 법을 가르쳐 줘")

▷오디오-시각 분리 : 누가 언제 말 했는가? (예, "수업 중 주요 주제는 무엇이었습니까?")

▷사회적 상호작용: 누구와 상호작용하고 있는가? (예: "이 시끄러운 식당에서 말하는 사람의 소리를 더 잘 들을 수 있도록 도와주세요")

이러한 벤치마크를 통해 실제 세계뿐만 아니라 물리적 현실과 AR, VR이 한 공간에 모여 있는 메타버스(metaverse)에서도 이해하고 상호작용할 수 있는 스마트 AI 비서 개발에 필요한 빌딩블록 연구가 촉진될 전망이다.

이 데이터 세트(샘플보기)는 오는 11월 Ego4D의 데이터 사용 조건을 체결한 연구자들을 위해 공개될 예정이다. 또한 이 연구를 보완하기 위해 FRLR의 연구원들은 Vuzix Blade® Smart Glass를 사용하여 비디오에 찍힌 사람의 서면 동의를 받아 단계별 환경에서 400시간의 1인칭 비디오 데이터를 추가로 수집했다. 이 자료도 함께 공개될 예정이다.

특히, 페이스북 AI는 열린 연구를 통해 AI 분야가 자기중심적 인식의 진보를 더욱 빠르게 촉진할 수 있기를 기대한다며, Ego4D 프로젝트를 통해 페이스북 AI 및 대학 컨소시엄은 학계와 업계 전문가들이 더 똑똑하고, 더 상호작용적이며, 유연한 컴퓨터 비전 시스템을 구축할 수 있는 완전히 새로운 길을 연 것이라고 밝혔다.

결론적으로 Ego4D의 벤치마크가 지원하고 데이터 세트에 대한 교육을 받은 AI 주도 기능을 통해 어시스턴트가 독특하고 의미있는 방식으로 가치를 제공할 수 있다.

예를 들어, 이 AI 비서는 증강 메모리를 통해 동료와의 최근 대화에서 중요한 정보를 기억해 내거나, 딸이 자전거 안전모를 마지막으로 두고 간 장소를 찾아주고, 실시간으로 보충 기술을 제공하여 저녁 파티를 위한 새로운 레시피를 따라 하는 과정을 안내할 수 있다.

한편, 자세한 내용과 관련 연구 논문, 데이터세트의 다운 등은 Ego4D 컨소시엄 및 프로젝트 홈페이지(보기)를 참고하면 된다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지