추가로 오는 6월 중 1억 7천만 문장으로 학습된 뛰어난 성능(KorQuAD f1 93.89/em 85.61 KorSTS 83.90, KorNLI 81.68)의 대형모델을 공개할 예정...

'한국어 AI 언어모델 튜닝대회' 홈페이지 캡처
'한국어 AI 언어모델 튜닝대회' 홈페이지 캡처

지난해 말 인라이플은 LG CNS가 주최한 한국어 기계 독해대회에서 탑재 가능한 인공지능(AI) 초경량 언어 모델 '모바일 버트(Mobile BERT)'을 선보였다. 이 '언어 이해 기술 모델'은 크기가 36.5MB로 스마트폰에 직접 탑재해 인터넷이 끊긴 상황에서도 자연어 검색, 번역, 요약 등 언어 이해와 관련된 기능을 이용할 수 있는 모델이다.

이 모델은 구글 버트보다 11.9배(91%) 작고, 정보 처리 계산량도 6.1배(85%) 작다. 인간 성능과 비교해 정확히 맞추는 정확도(EM)가 인간보다 높은 81.07, 비슷하게 맞추는 정확도(F1)에서는 인간과 비슷한 수준(91.20)인 90.25를 기록했다.

그 동안 영어로 학습된 버트 대형모델들은 공개되어 있으나 한국어 버트 대형모델은 공개된 것이 없다. 한국어로 대형모델을 직접 학습하려면 시간과 자원이 많이 들어 개인, 중소기업은 버트 대형모델을 다루기가 어렵다는 과제가 있었다.

인라이플은 지난달 18일에 국내 최초 한국어 대형 언어 모델로 8천만 문장 학습된 모델을 공개하고 오는 6월 중 1억 7천만 문장으로 학습된 뛰어난 성능(KorQuAD f1 93.89/em 85.61 KorSTS 83.90, KorNLI 81.68)의 대형모델을 공개할 예정이다. 이 모델의 파인튜닝을 통해 언어와 관련된 다양한 서비스로 기업의 실질적 생산성을 높이고 다양한 산업군에 적용할 수 있는 AI 언어모델이 개발될 것으로 예상된다.

이에 인라이플은 LG CNS와 공동으로 한국어 자연어 처리 활성화를 위해 1억개 문장으로 학습된 대형 언어모델을 오픈 소스로 공개(다운)하고 모델을 활용해 한국어해독 인공지능을 구현하는 '한국어 AI 언어모델 튜닝대회'를 개최한다. 모델은 누구나 다운받아 사용할 수 있다.

이 언어모델 파인튜닝 대회는 지난달 18일부터 오는 6월 19일까지 현재 진행 중으로 기간 중에는 언제라도 참가가 가능하다. 결과는 6월 25일 발표된다. 시상은 1위 500만원 (1팀), 2위 200만원 (1팀), 3위 100만원 (3팀)이며, 순위는 10위까지 발표된다.

한편, 참가는 대회 홈페이지에 공개된 모델로 소형 언어모델을 미세조정(파인튜닝)하여 KorQuAD에 등록 후 방법을 공개하면 된다. 또한 대회 참가자가 모델 등록을 보다 쉽게 진행하기 위한 방법을 제시하는 오프라인 설명회도 사전 등록을 통해 10일(수)에 개최된다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지