배경 이미지:LREC-COLING
배경 이미지:LREC-COLING

금융 생성형 AI 전문 기업 원라인에이아이(대표 정한얼)가 오는 5월 20일부터 25일까지 이탈리아 토리노에서 열리는 '2024 국제 컴퓨터 언어학, 언어 자원 및 평가 공동 국제 학회(LREC-COLING 2024)'에 참가, 한글 언어모델 평가에 특화된 데이터셋 및 연구결과를 발표한다.

원라인에이아이는 금융 도메인 생성형 언어모델 관련한 연구 결과를 꾸준히 발표해왔다. 이번 학회에도 한국 특유의 지식과 문화적 맥락을 평가하는 데이터셋(벤치마크)과 성과를 공유할 예정이다.

대규모 말뭉치로 훈련된 대형언어모델(LLM)은 다양한 작업에서 인상적인 능력을 보여주며 영어를 넘어 다른 언어로 이 모델들을 적용하려는 노력이 지속되고 있다. 하지만 그 평가 방법론에 대한 관심은 비교적 적은데, 현재 다국어 벤치마크는 주로 영어로 제작된 벤치마크를 번역하여서 사용하고 있기에 각국의 독특한 문화적 및 언어적 늬앙스를 포착하는 능력이 제한된다.

이전 한글 벤치마크가 자연어 이해나 추론 능력을 평가하는 데 중점을 둔 반면, 이번 학회에서 발표하는 한국어 벤치마크 데이터셋은 지식의 깊이 자체를 강조한다는데 차이점이 있다.

한국어 어휘, 문화, 지리, 역사에 대한 지식이 대화 상황에서 토큰 또는 시퀀스 분류와 같은 전통적인  자연어 이해 작업만큼 중요하다고 판단한 까닭이다. 또한 이 벤치마크는 외래어(LW), 표준 명칭(SN), 희귀어(RW), 일반 지식(GK), 역사(HI), 독해력(RC)과 같은 여섯 개의 하위 작업을 포함한다.

이 벤치마크를 통하여 평가한 언어모델의 한글 이 성능은 주의 깊게 볼 만 하다. 한글 오픈소스 언어모델 'Polyglot-Ko' 모델이 메타의 라마-2(LLaMA-2)를 비롯하여 UMT5 보다 여섯 개의 하위 작업에서 모두 높은 성능을 보였다. 이 결과는 벤치마크가 한국어로 맞춤화되지 않은 모델들에게 특히 도전적이며, In-Context Learning 으로 완화하기 어렵다는 반증으로 해석할 수 있다.

또한 모델의 크기와 성능간의 상관관계를 규명하는 실험을 통해 언어모델의 성능은 모델의 크기를 넘어서 더 넓은 범위의 요소에 의해 영향을 받는다는 것을 밝혔다. 이는 LLM을 학습시켜 특정 작업을 수행하도록 만들 때 언어모델의 크기에 따라 학습 비용이 선형적으로 증가하고 있는 상황에서 의미있는 연구로 이어질 수 있다는 평가이다.

정한얼 원라인에이아이 대표는 "작년 Fin-NLP 발표 이후로 빠르게 변화하는 생성형 AI 분야에서 지속적으로 연구 결과를 발표하는 것은 우리의 핵심 경쟁우위 중 하나"라며 "3월 중 이러한 기술력이 응축된 금융 특화 생성형 플래그십 모델을 공개할 예정"이라고 말했다.

한편 원라인에이아이는 앞서 대규모 한글 평가 데이터셋 KMMLU(Measuring Massive Multitask Language Understanding)를 발표한 바 있다. KMMLU(다운)는 현재 가장 진보한 한글 언어모델 평가 데이터셋으로 평가받으며 누적 다운로드 수 30만회를 돌파하였다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지