‘시각적 음향 매칭‘, '시각적 정보에 기반한 잔향’, ‘비주얼보이스’ 등 세 가지 모델로 물리적 공간의 기하학, 해당 지역의 재료 및 표면, 소리가 나오는 위치의 근접성 등 우리가 오디오를 듣는 방식에 모든 요소를 ​​포함

이미지:영상 캡처
이미지:영상 캡처

메타버스의 파티에서 어울리거나 증강현실(AR) 안경을 착용하고 거실에서 홈 무비를 볼 때 음향은 이러한 순간을 경험하는 데 중요한 역할을 한다. 우리는 이와 같은 혼합 현실 및 가상 현실 경험을 위해 노력하고 있으며 인공지능(AI)이 사람들이 몰입하는 설정과 사실적으로 일치하는 음질을 제공하는 핵심이 될 것이라고 믿는다.

이에, 메타 인공지능(Meta AI) 연구팀이 메타 리얼리티 랩(Meta Reality Labs)의 오디오 전문가와 이 연구를 주도한 텍사스 대학교 오스틴(University of Texas at Austin)의 컴퓨터 공학과  크리스틴 그라우만(Kristen Grauman) 교수 연구팀과 비디오에 있는 인간의 말과 소리를 시청각적으로 이해하기 위한 세 가지 새로운 인공지능 모델을 오픈소스로 공개했다.

텍사스 대학교 오스틴 컴퓨터 공학과 크리스틴 그라우만 교수
텍사스 대학교 오스틴 컴퓨터 공학과 크리스틴 그라우만 교수

이 모델은 우리를 더 빠른 속도로 가상에서 현실로 이끌도록 설계되어 있다.

연구팀의 모델은 사람의 외모와 소리를 기반으로 사람의 물리적 환경을 이해하는 것을 기반으로 한다. 예를 들어, 콘서트는 큰 공연장에서 하는 것과 거실에서 하는 것 사이에는 큰 차이가 있다. 그 이유는 물리적 공간의 기하학, 해당 지역의 재료 및 표면, 소리가 나오는 위치의 근접성은 우리가 오디오를 듣는 방식에 모든 요소를 ​​포함하기 때문이다.

이미지:메타
이미지:메타

연구팀이 AI 커뮤니티와 공유하는 모델은 기존 방법을 능가하는 세 가지 시청각 작업에 중점을 두었다.

먼저, '시각적 음향 매칭(Visual Acoustic Matching-논문)' 모델의 경우 대상 환경의 이미지와 함께 어디에나 녹음된 오디오 클립을 입력하고 해당 환경에서 녹음된 것처럼 소리가 나도록 클립을 변환할 수 있다.(아래는 CVPR 2022에서 5분 구두 발표 영상)

 

예를 들어, 모델은 동굴에서 녹음된 음성의 오디오와 함께 레스토랑의 식당 이미지를 촬영하고 그 음성이 사진에 있는 레스토랑에서 녹음된 것처럼 대신 들리도록 할 수 있다.

시각적 음향 매칭: 한 공간에 녹음된 소리를 대상 시각적 장면에 묘사된 다른 공간으로 변환한다. 예를 들어, 스튜디오에서 녹음된 소스 오디오가 주어진 경우, 콘서트 홀의 실내 음향과 일치하도록 오디오를 다시 합성한다.(표:논문캡처)
시각적 음향 매칭: 한 공간에 녹음된 소리를 대상 시각적 장면에 묘사된 다른 공간으로 변환한다. 예를 들어, 스튜디오에서 녹음된 소스 오디오가 주어진 경우, 콘서트 홀의 실내 음향과 일치하도록 오디오를 다시 합성한다.(표:논문캡처)

두 번째 모델인 '시각적 정보에 기반한 잔향(Visually-Informed Dereverberation-논문)'은 시각적 음향 매칭의 반대로 관찰된 소리와 공간의 시각적 단서를 사용하여 녹음된 환경에 따라 소리가 만드는 반향인 잔향(메아리)을 제거하는 데 중점을 두었다.(아래는 시뮬레이션된 환경과 실제 세계 모두에서 반향 및 잔향이 감소된 음성의 시청각 영상)

 

시각적 단서는 인간 음성 오디오에 대한 리버브 효과에 영향을 미치는 주요 요소를 보여준다. 예를 들어, 이러한 오디오 음성 샘플(파형 및 스펙트로그램으로 표시됨)은 어휘적으로 동일하지만 환경이 다르기 때문에 매우 다른 반향 특성을 가지고 있다.(표:논문캡처)
시각적 단서는 인간 음성 오디오에 대한 리버브 효과에 영향을 미치는 주요 요소를 보여준다. 예를 들어, 이러한 오디오 음성 샘플(파형 및 스펙트로그램으로 표시됨)은 어휘적으로 동일하지만 환경이 다르기 때문에 매우 다른 반향 특성을 가지고 있다.(표:논문캡처)

세 번째 모델인 비주얼보이스(VisualVoice-논문/서포트/코드)는 레이블이 지정되지 않은 비디오에서 시각 및 청각 신호를 학습하여 시청각 음성 분리를 달성함으로써 사람들이 새로운 기술을 다중 모드로 습득하는 것과 유사한 방식으로 학습한다. 

비디오가 주어지면 목표는 동시 배경 소리 및(또는) 다른 인간 스피커에도 불구하고 얼굴과 관련된 음성을 추출하는 것이다. 기존 방법은 화자의 입술 움직임과 그것이 생성하는 소리 사이의 정렬을 학습하는 데 중점을 두는 반면, 모델은 화자의 얼굴 모습을 그들이 만들어낼 가능성이 있는 해당 음성 특성을 분리하기 전에 추가로 활용할 것을 제안한다. 접근 방식은 레이블이 지정되지 않은 비디오에서 시청각 음성 분리 및 교차 모달 스피커 임베딩을 공동으로 학습한다. 시청각 음성 분리 및 향상을 위한 5개의 벤치마크 데이터 세트에 대한 최첨단 결과를 산출하고 다양한 시나리오의 까다로운 실제 비디오에 잘 일반화한다.
비디오가 주어지면 목표는 동시 배경 소리 및(또는) 다른 인간 스피커에도 불구하고 얼굴과 관련된 음성을 추출하는 것이다. 기존 방법은 화자의 입술 움직임과 그것이 생성하는 소리 사이의 정렬을 학습하는 데 중점을 두는 반면, 모델은 화자의 얼굴 모습을 그들이 만들어낼 가능성이 있는 해당 음성 특성을 분리하기 전에 추가로 활용할 것을 제안한다. 접근 방식은 레이블이 지정되지 않은 비디오에서 시청각 음성 분리 및 교차 모달 스피커 임베딩을 공동으로 학습한다. 시청각 음성 분리 및 향상을 위한 5개의 벤치마크 데이터 세트에 대한 최첨단 결과를 산출하고 다양한 시나리오의 까다로운 실제 비디오에 잘 일반화한다.

즉, 시각적 및 오디오 신호를 사용하여 음성을 다른 배경 소리와 음성으로부터 분리한다.(아래는 합성 데이터와 웹 비디오 모두에 대한 시각 음향 일치의 시청각 시연영상)

예를 들어, 메타버스에서 전 세계의 동료들과 그룹 회의에 참석할 수 있지만 사람들이 대화를 덜 하고 서로 수다를 떠는 대신 가상 공간을 이동하고 합류함에 따라 잔향과 음향이 그에 따라 조정된다.

이상 세 가지 작업 모두 시청각 인식과 관련하여 Meta AI에서 수행하는 인공지능 연구의 전반적인 분야에서 연결된다. 사람들이 AR 안경을 쓰고 자신의 관점에서 경험한 것과 똑같은 모양과 소리를 내는 홀로그램 메모리를 재현하거나 가상 환경에서 게임을 할 때 그래픽뿐만 아니라 사운드에 몰입하는 느낌을 받을 수 있는 미래를 만드는 것이다.(아래는 AR 및 VR을 위한 메타 AI 기반 음향 합성 소개 영상)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지