인간의 시각 및 언어를 탐색하는 최초의 다국어 데이터 세트이며, 영어, 힌디어, 텔루구어(Telugu) 등 세 가지 유형학적으로 다양한 언어로 된 126,069개의 인간 주석이 달린 식별 지침을 포함하고 있다.

인간의 말하기 또는 쓰기 명령에  인간 시각을 대응하고 식별할 수 있는 에이전트
인간의 말하기 또는 쓰기 명령에  인간 시각을 대응하고 식별할 수 있는 에이전트

머신러닝(ML)의 핵심 과제는 말하기 또는 쓰기 명령에 대응하여 복잡한 인간 환경을 식별할 수 있는 에이전트를 구축하는 것이다.

로봇을 비롯한 오늘날의 모델은 복잡한 환경을 탐색할 수 있는 경우가 많지만, "오른쪽으로 닫힌 갈색 이중문을 지나 테이블 상단의 의자 뒤에 서라"는 등 자연어로 표현된 내비게이션 목표를 아직 이해할 수 없다.

시각 및 언어 탐색(VLN. Vision-and-Language Navigation-관련 연구 다운)으로 불리는 이 과제는 공간 언어에 대한 정교한 이해를 요구한다. 예를 들어, "테이블 상단 의자 뒤" 위치를 식별할 수 있는 능력으로 테이블을 찾고, 테이블의 어느 부분을 "상단"로 간주하는지, 상단에서 가장 가까운 의자를 찾고, 이 의자 뒤의 영역을 확인하는 등의 작업을 수행해야 한다.

사람들은 이러한 지시를 쉽게 따를 수 있지만, 이러한 과제는 현재의 머신러닝으로는 쉽게 해결할 수 없으며, 언어를 설명하는 물리적 세계에 더 잘 연결할 수 있는 시스템이 필요하다.

구글 AI팀이 이 영역의 발전을 위해 시각 및 언어 탐색(이하, VLN)을 위한 새로운 데이터 세트인 RxR(Room-Accross-Room)을 지난 21일 오픈 소스로 공개했다. RxR은 VLN을 위한 최초의 다국어 데이터 세트이며, 영어, 힌디어, 텔루구어(Telugu) 등 세 가지 유형학적으로 다양한 언어로 된 126,069개의 인간 주석이 달린 식별 지침을 포함하고 있다.

RxR 데이터 세트의 영어, 힌디어 및 텔루구어 탐색 지침의 예로 각 탐색 지침은 동일한 경로를 설명한다.
RxR 데이터 세트의 영어, 힌디어 및 텔루구어 탐색 지침의 예로 각 탐색 지침은 동일한 경로를 설명한다.

각 지침은 가정, 사무실 및 공공 건물의 3D 캡처를 포함하는 Matterport3D 데이터 세트(다운)의 실내 환경으로 채워진 사실적인 시뮬레이터를 통한 경로를 설명한다. 또한 구글은 VLN의 진행 상황을 추적하기 위해 기계 학습 커뮤니티가 RxR 지침에 대한 에이전트에 따라 자체 지침을 교육하고 평가하도록 장려하는 대회인 RxR 챌린지(보기)도 진행한다.

RxR에는 탐색 지침과 경로 외에도 포즈 추적(Pose Traces)이라고 하는 보다 상세한 새로운 멀티모달 주석이 포함되어 있다. 현지화된 내러티브(Localized Narratives- 다운) 데이터 세트에 캡처 된 마우스 추적에서 영감을 얻어 풍부한 3D 설정에서 언어, 시각 및 움직임 사이에 높은 접근성을 제공한다.

포즈 추적은 경로를 따라 가이드가 보는 모든 것을 기록한 것으로, 탐색 지침의 단어와 시간 순으로 정렬된다. 그런 다음 이러한 추적은 가이드 오디오를 듣고 의도된 경로를 따라가는 작업을 수행하는 팔로어 어노테이터(Annotator)의 포즈 추적과 쌍을 이루어 탐색 지침의 품질을 검증한다.

또한 포즈 추적은 랜드 마크 선택 및 시각적 섬세성에 대한 개념을 암시적으로 캡처하고 탐색 지침 생성 작업 (가이드 용) 및 탐색 지침 후속 작업 (팔로어 용)을 해결하는 방법에 대한 실황 설명을 나타낸다.

(그림1) 설명 아래 참조(사진:구글)
(그림1) 설명 아래 참조(사진:구글)
(그림2)RxR 데이터 세트의 영어 탐색 지침 예시. 지침 텍스트 (그림1) 의 단어는 경로를 설명하는 환경을 통해 이동할 때 가이드 어노테이터의 움직임과 시각적 인식을 보여주는 포즈 추적 ( 그림2) 과 정렬되도록 색상으로 구분된다.
(그림2)RxR 데이터 세트의 영어 탐색 지침 예시. 지침 텍스트 (그림1) 의 단어는 경로를 설명하는 환경을 통해 이동할 때 가이드 어노테이터의 움직임과 시각적 인식을 보여주는 포즈 추적 ( 그림2) 과 정렬되도록 색상으로 구분된다.

규모에서는 RxR은 거의 1,000만 단어가 포함되어 있어 R2R(Room-to-Room Navigation- 다운) 및 터치다운 (다운)/리터치다운 (다운)과 같은 기존 데이터 세트보다 약 10배 더 크다. 이것은 정적 이미지 및 텍스트 데이터에 기반한 작업과 비교하여 일반적으로 움직임이나 환경과의 상호 작용을 통해 학습을 필요로 하는 언어 작업은 대규모 교육 데이터의 부족으로 어려움을 겪기 때문에 중요하다.

경로를 따라 360 ° 이미지에 정렬 된 탐색 명령의 단어가 있는 동일한 RxR 예제(사진:논문)
경로를 따라 360 ° 이미지에 정렬 된 탐색 명령의 단어가 있는 동일한 RxR 예제(사진:논문)

RxR은 모든 경로가 유사한 길이를 가지며 목표까지 가장 짧은 경로를 취하는 R2R과 같은 다른 데이터 세트에서 발생하는 경로의 구성에서 편향을 해결한다. 이와는 대조적으로, RxR의 경로는 평균적으로 더 길고 예측 가능하지 않아 데이터 세트에 대해 훈련된 모델을 따라가기 더 어려워지고 작업에서 언어의 역할에 더 중점을 두도록 장려된다.

RxR의 크기, 범위 및 세부 사항은 영어와 같은 높은 자원 언어의 지배력을 줄이면서 기초 언어 학습에 대한 연구를 위한 경계를 확장한다.

왼쪽 : RxR은 유사한 기존 데이터 세트보다 훨씬 크다. 오른쪽 : R2R에 비해 RxR의 경로는 일반적으로 더 길고 예측하기 어렵기 때문에 따라 가기가 더 어렵다(사진:구글)
왼쪽 : RxR은 유사한 기존 데이터 세트보다 훨씬 크다. 오른쪽 : R2R에 비해 RxR의 경로는 일반적으로 더 길고 예측하기 어렵기 때문에 따라 가기가 더 어렵다(사진:구글)

또한 RxR 데이터 세트를 더 잘 특성화하고 이해하기 위해 오픈 소스 프레임 워크 VALAN(다운) 및 다국어 버트(BERT- 다운) 모델의 언어 표현을 사용하여 RxR에서 다양한 에이전트를 학습했다. 학습 중에 팔로워 어노테이터와 가이드 주석을 포함하여 결과가 개선되었으며 독립적으로 훈련 된 단일 언어 에이전트가 단일 다국어 에이전트보다 성능이 우수하다는 것을 확인했다.

RxR 테스트 표준 분할에서 에이전트를 따르는 다국어 및 단일 언어 지침의 결과. 성능은 무작위 걷기보다 훨씬 낫지 만, 이 작업에서 인간의 성능에 도달할 수 있는 상당한 여유 공간이 있다(출처:논문)
RxR 테스트 표준 분할에서 에이전트를 따르는 다국어 및 단일 언어 지침의 결과. 성능은 무작위 걷기보다 훨씬 낫지 만, 이 작업에서 인간의 성능에 도달할 수 있는 상당한 여유 공간이 있다(출처:논문)

개념적으로 이러한 에이전트의 평가는 간단하다. 에이전트가 의도한 경로를 따랐는가? 경험적으로 구글AI팀은 100 (완벽한 대응)과 0 (완전히 틀린) 범위의 경로 충실도의 정규화 된 측정인 NDTW를 사용하여 VLN 에이전트가 취하는 경로와 참조 경로 간의 유사성을 측정한다. 세 언어 모두에서 팔로워 어노테이터의 평균 점수는 유사한 경로 간의 자연스러운 변화로 인해 79.5 점이다.

이와는 대조적으로, 최고의 모델(각 언어에 대해 하나씩 독립적으로 훈련된 3개의 단일 언어 에이전트로 구성된 합성)은 41.5의 RxR 테스트 세트에서 NDTW 점수를 달성했다. 이것은 무작위(15.4)보다 훨씬 낫지만, 인간의 성과에는 크게 못 미친다.

언어 모델링의 발전이 GLUE 및 SuperGLUE와 같은 텍스트 전용 언어 이해 벤치마크의 개선을 위한 여지를 계속해서 빠르게 약화 시키지만, 언어를 물리적 세계에 연결하는 RxR과 같은 벤치마크는 상당한 개선 여지를 제공한다.

더 자세한 내용은 연구 논문인 'Room-Across-Room: 조밀한 시공간 접지를 통한 다국어 시각 및 언어 탐색(Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense Spatiotemporal Grounding-다운)'을, 그리고 데이터 세트인 RxR(Room-Accross-Room- 다운)은 깃허브를 통해 다운받을 수 있다.

 

 

 

 

 

관련기사

저작권자 © 인공지능신문 무단전재 및 재배포 금지