라벨링되지 않은 데이터에서 말과 입술 움직임을 동시에 모델링하는 최초의 인간 수준의 AI음성 인식 플랫폼으로 AV-HuBERT는 최고의 시청각 음성 인식 시스템(화자의 소리와 이미지를 모두 사용하여 말하는 사람의 말을 이해하는 시스템)보다 75% 더 정확하다

우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(이미지:영상캡처)
우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(이미지:영상캡처)

스마트 스피커부터 난청이나 언어 장애가 있는 사람들을 위한 도구 개발에 이르기까지 보다 광범위한 분야에서 음성 인식 및 이해 작업 등에 인공지능(AI)을 사용하고 있다.

그러나 이러한 음성 인식과 이해 시스템은 정교한 소음 억제 및 제어 기술 채택에도  불구하고  우리가 가장 필요로 하는 일상적인 상황에서 잘 작동하지 않는 경우가 많다. 여러 사람이 동시에 말하고 있거나 배경 소음이 많은 경우, 인식에 어려움을 겪는다.

당연하다. 이러한 경우 사람들이 AI보다 말을 더 잘 이해할 수 있는 한 가지 이유는 귀뿐만 아니라 눈도 사용하기 때문이다. 우리는 누군가의 입이 움직이는 것을 보고  듣고 있는 목소리가 누구에게서 나오는 것임을 직관적으로 알 수 있다.

이에 메타(Meta. 구 페이스북) AI 연구팀은 이러한 다재다능하고 강력한 음성 인식 도구를 구축하는 데 도움을 주기 위해, 우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(AV-Visual Hidden Unit BERT. 이하, AV-HuBERT)를 발표하고 오픈 소스로 공개했다.

사람처럼 귀뿐만 아니라 눈도 사용하는 인공지능 AV-HuBERT(사진:메타AI)
사람처럼 귀뿐만 아니라 눈도 사용하는 인공지능 AV-HuBERT(사진:메타AI)

라벨링되지 않은 데이터(아직 전사되지 않은 원시 비디오)에서 말과 입술 움직임을 공동으로 모델링하는 최초의 인공지능 시스템인 것이다. 또, AV-HuBERT는 최고의 시청각 음성 인식 시스템(화자의 소리와 이미지를 모두 사용하여 말하는 사람의 말을 이해하는 시스템)보다 75% 더 정확하다고 한다.

특히, AV-HuBERT는 유용한 작업을 수행하도록 AI를 학습시키는 데 있어 중요한 한계를 극복했다. 10분의 1 레이블링된 데이터를 사용하여 이전의 최고의 시청각 음성 인식 시스템을 능가한다. 

세계 대부분의 언어에 대해 많은 양의 라벨링된 데이터를 얻기 어렵기 때문에 AV-HuBERT의 자기 지도 방식은 더 많은 언어와 더 많은 응용 프로그램에서 소음에 강한 자동 음성 인식(Automatic speech recognition. ASR) 시스템을 구축하는 데 도움이 될 것으로 예상된다.

이처럼 AV-HuBERT는 시각적 입술 움직임과 음성 언어 모두에 대한 데이터를 통합함으로써 AI 어시스턴트를 인간 수준의 음성 인식에 더 가깝게 할 것이다. 즉, 시끄러운 공장에서든, 콘서트에서든, 아니면 비행기가 머리 위로 날아가는 동안 말하는 것이든 상관없이 우리가 AI에게 말하는 것을 이해할 수 있게 될 전망이다.

한편, AV-휴버트 개발에 따른 연구 '마스킹된 멀티모달 클러스터 예측을 통한 시청각 음성 표현 학습(Learning audio-visual speech representation by masked multimodal cluster prediction-다운)', '강력한 자체 감독 시청각 음성 인식(Robust self-supervised audio-visual speech recognition-다운)' 등 각각의 논문은 지난 5일 아카이브를 통해 발표됐으며, 현재 모델 무료 사용 동의(보기) 및 AV-휴버트 소스 코드(다운)는 깃허브에 공개돼 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지