일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억 어절을 구축, AI 개발에 쓰고 있다. 이에 반해 우리는 주요 경쟁국에 비해 1%도 채 안되는 실정...

소강춘 원장(사진:국립국어원)
소강춘 원장(사진:국립국어원)

국립국어원(원장 소강춘)이 4차 산업혁명 시대에 발맞춘 국어의 정보화 사업에 힘을 쏟는다. 누구나 이용 가능한 국가 공공재 성격의 대규모 국어 말뭉치를 구축, 내년에 우선 제공할 방침이라고 밝혔다. 10년 전 구축한 세종말뭉치 2억 어절에 신규로 8억 어절을 구축, 모두 10억 어절의 말뭉치를 인공지능(AI)과 언어처리 산업에 필요한 기초자료로 제공하게 된다.

정부도 자연어처리 등 AI의 핵심기술 개발을 위한 국어 자료 구축이 필요하다고 판단해 내년도 국립국어원 예산 중 연간 사업비 140억원 외에 말뭉치 구축만을 위한 예산 204억원을 별도로 책정했으며, AI 기술 개발을 위해 올해 3100만 어절로 이뤄진 말뭉치’를 새롭게 구축했으며, 내년까지 10억 어절을 말뭉치로 구축하고 이를 관련 기술 개발 등을 추진하는 기관이나 기업 등에 제공한다고 밝혔다. 2022년까지 150억 어절 규모의 말뭉치를 구축하는 것이 장기적인 목표이다.

‘말뭉치(말모둠, 글모둠)’는 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료다. 이는 AI가 얼마나 많이 학습하느냐에 응용 시스템이나 디바이스의 성능이 좌우된다. 이에 따라 각국은 국가 경쟁력 차원에서 사업을 추진, 일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억 어절을 구축, AI 개발에 쓰고 있다.

이에 반해 우리는 주요 경쟁국에 비해 1%도 채 안되는 실정이다. 특히 말뭉치의 양이 클수록 AI가 인식(이해)할 수 있는 자연어의 정확도가 높아지며, 또 이 자연어처리(NLP, Natural Language Processing) 기술은  AI 개발에 있어 핵심 기반이다. 국내에서는 1998년부터 정부가 ‘21세기 세종계획’을 통해 ‘세종 말뭉치’를 구축해왔으나 2007년 이후로 사업이 중단돼 있는 상태이며, 10년 만에 정부 주도로 말뭉치 구축 사업을 재개하는 셈이다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지