이 새로운 AI 언어 모델은 아스투리아어(Asturian), 루간다(Luganda), 우르두어(Urdu) 등과 같은 자원이 부족한 언어를 포함하여 전 세계 200개 언어 간에 고품질 번역을 제공하며, 품질 또한 기존 AI 연구와 비교할 때 평균 44% 더 높은 점수를 받았으며, 일부 아프리카 및 인도 기반 언어의 경우, 번역 성능이 70% 이상 정확했다.

단일 AI 모델로 세계 200개 언어 간 고품질 번역 제공
단일 AI 모델로 세계 200개 언어 간 고품질 번역 제공

이제, 전 세계 어떤 언어로도 서로 소통할 수 있는 인공지능(AI)의 능력을 통해 소수 언어의 어려움을 허물고 소통의 한계를 넘고 있다.

기계번역(MT) 시스템은 빠르게 개선되고 있지만 여전히 많은 양의 텍스트 데이터에서 학습하는 데 크게 의존하기 때문에 일반적으로 학습 데이터가 부족한 언어 및 표준화된 쓰기 시스템이 없는 언어에는 잘 작동하지 않는다.

지난 2월 메타AI는 사람들이 더 잘 연결되고 소통하고 미래의 메타버스의 일부가 되도록 돕기 위해 전 세계 대부분의 언어에 대한 고품질 기계 번역 기능을 제공하기 위한 노력으로 'NLLB(No Language Left Behind)'를 개발하고 오픈소스로 공개했었다.

이미지:메타 AI
이미지:메타 AI

여기에, 메타AI는 지난 6일(현지시간) NLLB의 새로운 혁신을 발표했다. 단일 AI 모델로 200개 언어 간에 고품질 번역을 제공하는 매개변수 540억 개의 ‘NLLB-200’이라는 새로운 AI 언어 모델을 오픈소스로 공개했다. 이 모델(NLLB-200)을 훈련하기 위해 메타AI는 지난 1월 개발된 '인공지능 연구 슈퍼클러스터(AI Research SuperCluster, RSC-보기)'를 사용했다. 이는 세계에서 가장 빠른 AI 슈퍼컴퓨터 중 하나다.

메타AI의 이 새로운 AI 모델 'NLLB-200'은 아스투리아어(Asturian), 루간다(Luganda), 우르두어(Urdu) 등과 같은 자원이 부족한 언어를 포함하여 전 세계 200개 언어 간에 직접 평가된 고품질 번역을 제공할 수 있다.

이는 전 세계의 더 사람들이 모국어로 웹 콘텐츠에 접근하고 실시간 뉴스를 그리고 다양한 정보를 공유할 수 있는 기회를 제공하고 언어 기본 설정에 관계없이 어디서나 누구와도 의사소통할 수 있는 기회를 제공하는 것을 목표로 한다.

번역 품질 또한 기존 AI 연구와 비교할 때 NLLB-200은 평균 44% 더 높은 점수를 받았으며, 일부 아프리카 및 인도 기반 언어의 경우 NLLB-200의 번역 성능이 70% 이상 정확했다고 한다.

특히, 메타AI는 NLLB-200을 가장 잘 평가하고 개선하기 위해 연구원이 40,000개의 서로 다른 언어 방향으로 이 AI 모델의 성능을 평가할 수 있는 데이터 세트인 플로레스-200(FLORES-200)을 구축했다. FLORES-200을 사용하면 각 언어에서 성능을 측정하여 번역 품질이 우수한지 확인할 수 있다.

메타 AI는 또한 책임감 있는 방식으로 이러한 노력을 확대해 나가기 위해 각 언어에 대해 언어학자, 사회학자, 윤리학자를 포함한 다학제 팀과 협력하고 있다. 전 세계 개발 및 연구자들이 언어 AI 모델을 개선하고 메타AI의 작업을 기반으로 구축할 수 있도록 지원하기 위해 NLLB-200 모델(다운)과 데이터 세트(FLORES-200-다운)를 공개했다.

자세한 내용은 Meta AI, 캘리포니아대학교 버클리캠퍼스(UC Berkeley), 존스홉킨스대학교(Johns Hopkins University) 공동 연구팀의 관련 논문(다운)을 참고하면 된다. 또한 200개 언어 모델링하기, 번역 품질 평가하기 등의 데모사이트를 현재 운영 중(보기)이다.

한편, 불과 몇 년 전까지만 해도 고품질의 기계 번역은 소수 언어만 지원했다. 이번 메타AI의 새로운 AI 언어모델 NLLB-200을 통해 기계 번역의 한계를 지속적으로 넓혀감에 따라 전 세계 사람들이 누구와도 의사소통할 수 있도록 지원하는 시스템을 사용하게 될 날이 더 가까이 다가온 것이다. (아래는 메타AI의 새로운 AI 언어모델 'NLLB-200' 소개 영상)

 

이 연구는 메타 AI 다학제 팀에서 수행되고 있으며, 이 팀에는 바비 아쿨라(Bapi Akula), 피에르 앤드루스(Pierre Andrews), 네킵 파질 아얀(Necip Fazil Ayan), 로이크 바로(Loic Barrault), 쉬루티 보세일(Shruti Bhosale), 마르타 루이즈 코스타후사(Marta Ruiz Costa-jussa), 제임스 크로스(James Cross), 오누르 셀레비(Onur Çelebi), 세르게이 에두노프(Sergey Edunov), 마하 엘바야드(Maha Elbayad), 안젤라 팬(Angela Fan).

신시아 가오(Cynthia Gao), 가브리엘 메야 곤잘레스(Gabriel Mejia Gonzalez), 베다누즈 고스와미(Vedanuj Goswami), 프란시스코 구즈만(Francisco Guzmán), 프랑팁 한사티(Prangthip Hansanti), 케네트 히필드(Kennet Heafield), 케빈 헤퍼넌(Kevin Heffernan), 존 호프먼(John Hoffman), 세말리 자렛(Semarley Jarrett), 엘라헤 칼바시(Elahe Kalbassi), 필립 코언(Philipp Koehn).

재니스 람(Janice Lam), 다니엘 리히트(Daniel Licht), 진 마이야르(Jean Maillard), 알렉산더 무라츠코(Alexandre Mourachko), 크리스토프 로퍼스(Christophe Ropers), 카우시크 람 사다고판(Kaushik Ram Sadagopan), 사피야 살림(Safiyyah Saleem), 홀거 슈웽크(Holger Schwenk), 섀넌 스프루트(Shannon Spruit), 애나 선(Anna Sun), 차우 트란(Chau Tran), 스카일러 왕(Skyler Wang), 기욤 웬젝(Guillaume Wenzek), 제프 왕(Jeff Wang) 등이 참여했다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지