한국어를 신남방 6개 언어(베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어) 및 신북방 2개 언어(러시아어, 우즈베크어)로 번역한 800만 어절의 데이터, 그리고 베트남어를 한국어로 번역한 50만 어절의 병렬 말뭉치를 구축

최근 들어 메타버스 등 시간과 공간의 제약을 뛰어넘는 플랫폼이 우리의 일상으로 들어와 국가를 초월하여 다른 언어를 사용하는 사람 간의 만남과 교류는 점점 활발해지고 있다.

여기에는 인공지능(AI)을 활용한 자연어처리(NLP) 기술과 자연어 번역 기술 등이 기반이 되었다. 그러나, 문화 교류 및 산업 분야 교류 확대가 기대되는 신남방·신북방 국가 언어와 한국어 간의 소통은 극히 제한적인 수준에 머무르고 있다.

이를 극복하기 위하여 국립국어원(원장 장소원)은 지난 8월부터 '21 한-외 병렬 말뭉치 구축 사업'을 추진하고 있다.

이 사업을 통해 한국어를 신남방 6개 언어(베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어) 및 신북방 2개 언어(러시아어, 우즈베크어)로 번역한 800만 어절의 데이터, 그리고 베트남어를 한국어로 번역한 50만 어절의 병렬 말뭉치를 구축함으로써 산업 분야 언어 데이터 활용의 기초를 다지게 된다.

사업은 한국어를 유창하게 구사하는 외국인들이 본인들의 역량을 발휘한다는 점에서 지금까지 정부와 민간에서 애써 온 한국어교육의 수준이 얼마나 발전했는지를 보여주는 사업이기도 하다.

행사이미지 캡처
행사이미지 캡처

이 사업의 일환으로 오는 26일 '인공지능(AI) 병렬 말뭉치 구축의 실제 - 신남방ㆍ신북방 언어를 중심으로'라는 주제로 워크숍이 열린다.

국립국어원이 주관하고 '21 한국어-외국어 병렬 말뭉치 구축 사업단이 주최하는 이번 워크숍에서는 병렬 말뭉치 구축에 관한 지식 및 정보를 공유하고, 병렬 말뭉치의 활용 방안과 관련 산업에 미칠 영향력을 전망한다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지