국립국어원, 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업을 솔트룩스와 함께 착수...

솔트룩스는 약 2,000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축(이미지:본지편집)
솔트룩스는 약 2,000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축(이미지:본지편집)

우리나라 말 “이수과?”가 무슨 뜻인지 아는 사람은 흔치 않다. “이수과?”는 제주 사투리로 “있습니까?”라는 뜻이다.

같은 한국어라도 지역색이 짙은 사투리는 단번에 알아듣기 힘들다. 그러나 앞으로는 인공지능이 이를 대신 해결해 줄 전망이다. 특히 포스트 코로나 시대에 비대면 서비스가 주목받는 요즘, 사투리까지 알아듣는 챗봇도 곧 만나볼 수 있을 것으로 기대된다.

이번 달 국립국어원은 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업을 인공지능 기업 솔트룩스와 함께 착수했다.

국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다는 계획이다.

해당 사업은 2019년부터 진행한 ‘국가 말뭉치 구축사업’의 일환으로 구어, 일상 대화, 메신저 대화, 웹, 문어 등으로 나눈 사업 분야 중 일상 대화에 속한다. 사업명에 쓰인 ‘말뭉치’란 언어 연구 분야에서 언어 자료를 나타내는 용어로 연구 목적마다 구체적인 정의가 다르다. 이번 사업에서는 약 500시간의 대화가 말뭉치 자료의 기준이다.

본 사업을 주관하는 솔트룩스는 약 2,000명의 대화를 수집하고, 이를 고품질의 AI 데이터로 구축한다. 초기 단계에는 대화형 인공지능 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다.

대화형 인공지능이란 사람과 유사한 수준의 대화가 가능한 인공지능으로, 말뭉치 데이터가 주로 사용될 분야이다. 또한 대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서는 국내 최고의 속기 전문기업 ‘소리자바’와 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공되어 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다. 또한 솔트룩스에서 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다.

국립국어원은 ‘말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것이다’라고 본 사업의 기대효과를 밝혔다. 말뭉치 데이터는 인공지능을 활용한 서비스 개발 과정에서 학습 데이터로 활용될 가능성이 있다. 학습 데이터란 인공지능이 목적대로 작동하기 위해 학습하는 데이터로, 기계어 형식으로 만들어져 있다.

따라서 인공지능에게 사람의 말을 학습시키려면 기계어 형식의 학습 데이터를 만들어야 한다. 국립국어원에서는 이를 위한 기초 데이터를 만들어 인공지능 연구·개발에 힘쓰고 있다.

솔트룩스 이경일 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련되어 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”라고 밝혔다.

한편, 솔트룩스는 대한민국의 대표 AI 기업으로, 국내 인공지능업체 중 가장 많은 121건의 기술 특허(PCT 포함)를 보유하고 있으며, 아시아 최대 규모인 150억 건 규모의 지식베이스를 구축하여 인공지능 및 빅데이터 분야 기술 개발을 선도하고 있다. 창립 이후 지난 20년간 백만건의 말뭉치, 2만 시간 이상의 음성 데이터를 구축하여 딥러닝 기반의 음성인식 엔진에 적용하고 있으며, 인공지능 고객센터 구축과 챗봇 고객응대 서비스를 포함한 인공지능 플랫폼 공급 사업과 공공 빅데이터 분석 플랫폼, 비정형 및 고객 목소리 분석 등을 위한 빅데이터 플랫폼 공급을 주요 사업으로 진행해 왔다. 

최근에는 AIaaS(AI as a Service)와 데이터과학 SaaS 서비스, 대규모 데이터 수집과 인지분석 등의 클라우드 기반한 구독형 서비스 사업을 확대하고 있다. 인공지능 소프트웨어 기업 최초로 기술성 평가 ‘AA’ 및 ‘A’를 받아 이번 달 코스닥 상장을 위한 예비심사를 통과했으며, 인공지능 대표 기업으로서 경쟁력을 입증했다.
 

저작권자 © 인공지능신문 무단전재 및 재배포 금지