[스페셜리포트] 101개국 구어와 문어, 실시간 번역하는 메타AI의 혁신적인 인공지능과 데이터셋 오픈소스로 공개

연구자 또는 개발자들이 다국어 번역 모델을 빠르게 테스트하고 개선할 수 있도록 101개 언어를 다루는 최초의 다국어 번역 평가 데이터 세트인 ‘플로레스 101(FLORES 101)’은 기존 데이터 세트와 달리 영어로 번역하는 것뿐만 아니라 모든 언어 방향을 통해 시스템 성능을 정량화할 수 있다. 수십 개의 공식 언어가 있는 지역에 살고 있는 전 세계 수백만 명의 사람들이 이를 통해 중요한 실제 요구 사항을 충족하는 번역 시스템을 구축하고 구현할 수 있는 것이다.

우리말, 영어, 중국어 또는 스페인어 등과 같은 언어들은 오늘날의 앱 및 웹 도구가 이미 필요한 번역 기술을 제공하는 것처럼 보일 수 있다. 그러나 수십억 명의 사람들이 인터넷상의 대부분의 정보에 쉽게 접근하거나 모국어로 세계와 연결하고 소통 할 수 없는 것이 현실이다.

기계 번역(Machine Translation. 이하, MT) 시스템은 빠르게 개선되고 있지만, 여전히 많은 양의 텍스트 데이터로부터 학습하는 것에 크게 의존하고 있기 때문에, 일반적으로 저자원 언어, 즉 학습 데이터가 부족한 언어와 표준화된 쓰기 시스템(writing system)이 없는 언어에서는 잘 작동하지 않는다.

여전히, 언어 장벽을 없애는 것은 심오(深奧)한 일이지만 전 세계 수십억 명의 사람들이 그들의 모국어 또는 선호하는 언어로 온라인 정보에 접근하는 것을 가능하게 될 것이다.

아주 가까운 미래에 가상 및 증강현실(VR·AR)과 같은 기술이 디지털 및 물리적 세계를 메타버스에서 하나로 결합시킬 때, 번역 도구는 다국적 사람들이 독서 클럽을 주최하거나 어떤 작업 프로젝트를 협업하는 것과 같은 일상적인 활동을 옆집 사람과 하는 것처럼 누구나, 어디서나 할 수 있게 해 줄 것으로 그 기술들은 진화하고 있는 것이다.

여기에, Meta(구 페이스북) AI는 대부분의 세계 언어를 포함하는 언어 및 MT 도구를 구축하기 위한 두 개의 새로운 혁신적인 프로젝트의 과정의 세부 사항을 공유하고 코드와 모델을 지난 23일 공개했다. 이는 전 세계 연구자 및 개발자와 함께 이 작업을 기반으로 하고 중요한 목표를 달성하는 데 더 가까워 질 수 있음을 의미한다.

첫 번째는 '남겨진 언어 없음(No Language Lefted Behind)'로, 학습할 예시가 적은 언어로부터 배울 수 있는 새로운 고급 AI 모델을 구축하고 있으며, 우간다의 루간다어(Luganda)부터 파키스탄과 인도 일부 지역에서 사용되는 공용어 우르두(Urdu)에 이르기까지 수백 개의 언어로 전문가 수준의 번역이 가능하도록 하는 것이다.

두 번째는 '범용 음성 번역기(Universal Speech Translator)'로, 한 언어로 된 음성에서 다른 언어로 실시간으로 번역하는 새로운 접근 방식을 설계하고 있어 표준 쓰기 시스템이 없는 언어뿐만 아니라 서면 및 음성 모두를 지원할 수 있다.

현재 대부분의 인공지능(AI) 번역 시스템은 전 세계에서 사용되는 수천 개의 언어를 제공하거나 실시간 음성에서 음성(speech-to-speech)으로 변환을 제공하도록 설계되지 않았다. 모든 사람에게 진정으로 소통하기 위해서는 MT 기술에서 세 가지 중요한 과제를 극복해야 한다고 메타 AI는 말한다.

메타 AI는 "더 많은 언어로 더 많은 교육 데이터를 수집하고 이미 사용 가능한 데이터를 활용할 수 있는 새로운 방법을 찾아 데이터 부족을 극복해야 한다"며, "모델이 더 많은 언어를 제공하기 위해 발전함에 따라 발생하는 모델링 문제를 극복해야 하며, 그들의 결과를 평가하고 개선할 새로운 방법을 찾아야 할 것이다"라고 밝혔다.

데이터 부족은 더 많은 언어로 번역 도구를 확장하는 데 가장 큰 장애물 중 하나이다. 텍스트 번역을 위한 MT 시스템은 일반적으로 주석이 달린 수백만 문장의 학습에 의존한다. 이 때문에 고품질 번역이 가능한 MT 시스템은 웹을 지배하는 소수의 언어에 대해서만 개발되었다. 다른 언어로 확장한다는 것은 웹이 희박한 언어에서 학습 예제를 획득하고 사용하는 방법을 찾는 것을 의미한다.

특히, 음성 대 음성 직접 번역의 경우, 데이터 수집 문제가 훨씬 더 심각하다. 대부분의 음성 MT 시스템은 텍스트를 중간 단계로 사용한다. 즉, 한 언어의 음성이 먼저 텍스트로 변환된 다음 대상 언어의 텍스트로 변환된 다음 최종적으로 텍스트 음성 시스템으로 입력되어 오디오를 생성한다. 이로 인해 음성 대 음성 번역은 텍스트에 의존하게 되어 효율성이 제한되고 주로 구술 언어들로 확장하기가 어려워진다.

다이렉트 음성-음성 변환 모델은 표준화된 문자 체계가 없는 언어에 대해서도 번역을 가능하게 할 수 있다. 이 음성 기반 접근 방식은 음성을 텍스트로 변환하고 번역 한 다음 대상 언어로 음성을 생성하는 추가 단계를 필요로 하지 않으므로 훨씬 빠르고 효율적인 번역 시스템으로 이어질 수 있다.

수천 개의 언어로 된 적절한 학습 데이터를 필요로 하는 것 외에도 오늘날 MT 시스템은 전 세계 모든 사람들의 요구를 충족시키기 위해 단순히 확장되도록 설계되지 않았다. 대부분의 MT 시스템은 이중 언어로 되어 있다.

즉, 영어-러시아어 또는 일본어-스페인어와 같이 각 언어 쌍마다 별도의 모델이 있다. 이 접근법은 전 세계에서 사용되는 모든 언어는 말할 것도 없고 수십 개의 언어 쌍으로 확장하기 어렵다. 많은 전문가들은 다국어 시스템이 여기서 도움이 될 수 있다고 말한다. 그러나 모든 언어를 표현할 수 있는 효율적이고 고성능의 단일 다국어 모델에 많은 언어를 통합하는 것은 대단히 어렵다.

또한, 실시간 음성 변환 MT 모델은 텍스트 기반 모델과 동일한 많은 문제에 직면하지만 실시간 번역을 가능하게하기 위해 효과적으로 사용되기 전에 한 언어가 다른 언어로 번역 될 때 발생하는 지연 인 대기 시간을 극복해야 한다. 여기서 주된 도전은 문장이 다른 언어로 다른 단어 순서로 말할 수 있다는 사실에서 비롯된다. 전문적인 동시 통역사조차도 원래 연설보다 약 3초 뒤떨어진다.

예를 들어, 독일어로 된 "모든 언어를 번역하고 싶습니다(Ich möchte alle Sprachen übersetzen)"와 스페인어로 된 "모든 언어를 번역하고 싶습니다(Quisiera traducir todos los idiomas)"를 생각해보자. 둘 다 "모든 언어를 번역하고 싶다(would like to translate all languages)"는 뜻이다.

그러나 독일어에서 영어로 실시간으로 번역하는 것은 더 어려울 것이다. 왜냐하면 문장의 끝에 '번역(translate)'이라는 동사가 나타나기 때문이다. 스페인어와 영어의 단어순서는 비슷하다.

마지막으로, 점점 더 많은 언어로 확장함에 따라 MT 모델에서 생성된 작업을 평가하는 새로운 방법도 개발해야 한다. 예를 들어, 영어에서 러시아어로 번역의 품질을 평가할 수 있는 리소스가 이미 있지만 에티오피아의 공용어 암하라어(Amharic)에서 카자흐어(Kazakh)로는 어떨까. MT 모델이 성능을 정확하게 평가하는 것 외에도 번역이 정확하게 수행되고 있는지 확인하는 것도 중요하다.

이처럼 MT 시스템이 문화적 감수성을 보존하고 편견을 만들거나 강화하지 않도록 하는 방법을 찾아야 한다. 이에 Meta AI는 아래 세 가지로 방법으로 이 과제를 각각 해결하고 있다.

▷저자원 다이렉트 음성-음성 변환 시스템 학습

저자원 언어에 대한 번역을 가능하게 하고 더 많은 언어의 향후 번역을 위한 빌딩 블록을 구축하기 위해, 메타 AI의 자동 데이터 세트 생성 기술을 확장하고 있다. 이러한 기술 중 하나는 '레이저(LASER-논문)'로, 현재 28개의 스크립트로 작성된 125개 이상의 언어를 포괄하는 오픈 소스 툴킷(다운)이다.

LASER는 다양한 언어의 문장을 단일 다국어 표현으로 변환시킨다. 그런 다음, 대규모 다국어 유사성 검색을 사용하여 유사한 표현을 가진 문장, 즉 다른 언어로 동일한 의미를 가질 가능성이 있는 문장을 식별한다. 메타AI는 LASER를 사용하여 인터넷에서 병렬 텍스트를 찾을 수 있는 ccMatrix(웹에서 수십억 개의 고품질 병렬 문장 마이닝-논문다운/툴다운) 및 ccAligned(다국어 웹-문서 쌍의 대규모 컬렉션-논문다운/툴·데이터셋 다운)와 같은 시스템을 구축했다.

저자원 언어는 사용 가능한 데이터가 거의 없기 때문에, 연구팀은 LASER가 아프리카의 언어. 반투어(Bantu language)와 같은 특정 언어 하위 그룹에 집중하고 훨씬 더 작은 데이터 세트에서 학습할 수 있는 새로운 교사-학생 훈련(Teacher-Student Training) 도구를 구축했다.

이를 통해 LASER는 여러 언어에 걸쳐 효과적으로 작동할 수 있었다. 이러한 각 발전을 통해 수백 개의 언어에 대한 마이닝을 지원하기 위해 개선 및 확장하기 위해 노력하고 궁극적으로 쓰기(writing) 시스템이 있는 모든 언어로 더 많은 언어를 다룰 수 있게 된 것이다.

메타AI는 최근에 음성과 함께 작동하도록 LASER를 확장하고 동일한 다국어 공간에서 음성과 텍스트에 대한 표현을 구축함으로써 한 언어의 음성과 다른 언어의 텍스트 사이의 번역을 추출하거나 심지어 직접 음성 대 음성 번역을 추출할 수 있다. 이 방법으로 메타 AI는 이미 거의 1,400시간 동안 프랑스어, 독일어, 스페인어 및 영어로 정렬된 음성을 식별했다고 한다.

텍스트 데이터는 중요하지만 모든 사람의 요구에 부응하는 번역 도구를 구축하기에는 충분하지 않다. 음성 변환 벤치 마크 데이터는 이전에 소수의 언어에서 사용할 수 있었기 때문에 다른 리소스 조건으로 22개 언어와 36개 언어 방향을 다루는 CoVoST 2(대규모 다국어 음성-텍스트 번역-논문/툴다운) 를 구축했다.

또한, 다른 언어로 된 많은 양의 오디오를 찾기가 어렵다. 23개 언어로 400,000시간 분량의 음성을 포함하는 복스포퓰리(VoxPopuli-툴다운)는 음성 인식 및 음성 번역과 같은 음성 애플리케이션을 위한 대규모 반지도(Semi-supervised) 및 (Self-supervised learning. 자체 감독)을 가능하게 한다.

이후 VoxPopuli는 음성 번역을 포함하여 128개 언어 및 음성 작업(을 위한 가장 크고 보편적인 사전 훈련 모델(규모에 따른 자기 지도 교차 언어 음성 표현 학습-논문/툴다운)을 구축하는 데 사용되었다. 이 모델은 CoVoST 2 데이터 세트에서 7.4 BLEU를 통해 21개 언어에서 영어로의 음성-텍스트 번역에 대한 이전 기술 상태를 개선했다.

▷다양한 언어와 다양한 양식에서 작동하는 모델 구축

MT 시스템을 학습하고 다른 연구자 또는 개발자가 사용할 수 있도록 더 많은 데이터를 생성하는 것 외에도, 메타AI는 훨씬 더 광범위한 언어 간의 번역을 처리하기 위해 모델 용량을 개선하기 위해 노력하고 있다. MT 시스템은 종종 단일 양식 내에서 제한된 언어 집합에서 작동한다.

또한, 모델이 너무 작아서 여러 언어를 표현할 수없는 경우, 성능이 저하되어 텍스트 및 음성 번역 모두에 부정확성이 발생할 수 있다. 모델링의 혁신은 번역이 언어에서 텍스트(speech to text)로, 텍스트에서 언어(text to speech)로, 텍스트에서 텍스트(text to text)로, 또는 언어에서 언어(speech to speech)로 신속하고 원활하게 이동하는 미래를 만드는 데 도움이 될 것이다.

메타AI는 MT 모델의 향상된 성능을 달성하기 위해 대용량에도 불구하고 효율적으로 훈련하는 모델을 만드는 데 많은 투자를 했으며, 이는 드문드문 게이팅된 전문가 혼합 모델에 초점을 맞췄다. 모델 크기를 늘리고 다른 토큰이 다른 전문가 용량을 사용하도록 자동 라우팅 기능을 학습함으로써 고자원과 저자원 번역 성능의 균형을 맞출 수 있었다.

특히, 메타AI는 텍스트 기반 MT를 101개 언어로 확장하기 위해 영어 중심적이지 않은 최초의 다국어 텍스트 번역 시스템(M2M-100, 논문/툴다운)을 구축한 것이다.

이중 언어 시스템은 일반적으로 소스 언어에서 영어로 번역한 다음 영어에서 대상 언어로 번역하여 작동한다. 이러한 시스템을 더 효율적이고 더 높은 품질로 만들기 위해 언어가 영어를 통하지 않고 다른 언어로 직접 번역될 수 있도록 매체로서의 영어를 제거했다.

영어를 제거하면서 모델의 용량이 증가했지만 이전에는 다국어 모델이 맞춤형 이중 언어 시스템과 동일한 수준의 품질에 도달할 수 없었다. 하지만 메타AI의 다국어 번역 시스템(논문/코드)은 지난해 11월 개최된 EMNLP 2021(WMT21)의 기계번역 워크숍(Workshop on Machine Translation) 경진대회에서 우승하며, 최고의 이중 언어 모델들을 능가했다.

메타AI는 이 기술이 포괄적이 되는 것을 목표로 한다. 그것은 표준 문자 체계 없이 문어(文語, 글에서만 쓰이고 일상적인 대화에서는 쓰이지 않는 말)와 언어 모두를 지원해야 한다. 이를 염두에 두고 추론 중에 중간 텍스트 표현을 생성하는 데 의존하지 않는 음성 대 음성(speech to speech) 번역 시스템을 개발하고 있다. 이 접근법은 별도의 음성 인식, 기계 번역 및 음성 합성 모델을 결합한 기존의 계단식 시스템보다 빠른 것으로 입증되었다.

또한, 향상된 효율성과 더 간단한 아키텍처를 통해 AR 안경과 같은 미래의 장치를 위해 직접 음성 대 음성 변환은 거의 인간 수준의 실시간 번역을 구사할 수 있다. 마지막으로, 모든 사람의 음성에서 표현력과 성격을 보존하는 음성 번역을 만들기 위해, 메타AI는 생성 된 오디오 번역에 억양과 같은 입력 오디오의 일부 측면을 포함하기 위해 노력하고 있다.

▷수백 개의 언어에서 성공을 측정하는 방법

하지만, 더 많은 언어 사이에서 번역할 수 있는 대규모 모델을 개발하는 것은 중요한 질문을 야기한다.

우리가 더 나은 데이터를 개발했는지 아니면 더 나은 모델을 개발했는지 어떻게 결정할 수 있을까? 대규모 다국어 모델의 성능을 평가하는 것은 까다롭다. 특히, 모델이 다루는 모든 언어에 대한 현장 전문 지식을 갖추어야 하기 때문이다. 이는 시간이 많이 걸리고 리소스 집약적이며, 종종 비현실적인 과제다.

여기에, 메타AI는 연구자 또는 개발자들이 다국어 번역 모델을 빠르게 테스트하고 개선할 수 있도록 101개 언어를 다루는 최초의 다국어 번역 평가 데이터 세트인 플로레스 101(FLORES 101. 다운/논문)을 구축했다.

기존 데이터 세트와 달리 FLORES-101을 사용하면 연구자들이 영어로 번역하는 것뿐만 아니라 모든 언어 방향을 통해 시스템 성능을 정량화할 수 있다. 수십 개의 공식 언어가 있는 지역에 살고 있는 전 세계 수백만 명의 사람들이 이를 통해 중요한 실제 요구 사항을 충족하는 번역 시스템을 구축하고 구현할 수 있는 것이다.

메타 AI는 MT 연구계의 노력과 함께 언어와 범용 음성 번역기가 결합해 세계인을 아우르는 번역 기술을 만드는 데 성공한다면 이전에는 불가능했던 디지털과 물리적인 세계를 열어갈 수 있을 것이며, 이미 전 세계 인구의 보편적 번역에 큰 장벽인 저자원 언어의 번역을 가능하게 하는 발전을 이루고 있다고 밝혔다.

말뭉치 생성, 다국어 모델링 및 평가에서 우리의 연구를 발전시키고 오픈 소싱함으로써, 메타AI는 다른 연구자들이 이 연구를 기반으로 하고 번역 시스템의 실제 사용을 현실에 더 가깝게 할 수 있기를 바란다고 덧붙였다.

한편, 우리의 의사 소통 능력은 인간의 가장 기본적인 측면 중 하나다. MT 기술은 우리의 의사소통 및 아이디어 공유 방식을 변화시키고 있다.

이 기술의 발전과 능력은 가까운 미래에 전 세계 수십억 명의 사람들에게 그들이 말하거나 쓰는 언어와 상관없이, 정보와 기회에 대한 기존의 장벽을 허물고 더 포괄적이고 연결된 세상을 위해 훨씬 더 많은 사람들과 소통할 수 있게 될 것으로 기대된다.

상단영역

본문영역

[스페셜리포트] 101개국 구어와 문어, 실시간 번역하는 메타AI의 혁신적인 인공지능과 데이터셋 오픈소스로 공개

관련기사

기사 댓글 1

비회원 로그인

댓글목록