오토태깅, 질문생성 평가 관련 데이터 부족 문제 해결 방법 제시와 질문 생성 과제에서 챗GPT 활용해 안정적이고 고성능 질문 평가 모델 제시, 서비스 구현 예정

장영준 대표(사진:본지DB)

AI 에듀테크 기업 뤼이드(대표 장영준)가 세계 3대 자연어처리(NLP) 학회 중 하나로 꼽히는 전산언어학학회(ACL 2023)에서 두 편의 논문이 채택되었다.

ACL(Association for Computational Linguistics)은 인공지능(AI) 및 LNP기술의 최신 연구 결과와 혁신적 아이디어를 발표하고 토론하는 장으로, 연구자들은 이 학회에 논문을 제출하고, 동료 평가를 통해 논문의 창의성과 기술 수준을 검증 받는다. 

이번에 채택된 논문은 뤼이드가 개발하고 있는 제너럴 AI 튜터 서비스를 위한 핵심 기술 중 일부다. 

첫 번째 논문은 ‘증강으로서의 교차 인코딩: 효과적인 교육용 텍스트 분류를 위해(Cross Encoding As Augmentation: Towards Effective Educational Text Classification)‘으로 교육용 자료를 보다 효과적으로 분류하기 위한 오토태깅 분야에서 난제를 해결하는 방법을 제시해 주목받았다.

오토태깅 분야에서 가장 어려운 과제 중 하나는 데이터 부족 문제인데, 뤼이드 연구팀은 상대적으로 데이터셋이 충분한 정보 검색 과제에서 학습된 모델을 활용하면서, 언어 모델의 인코딩 능력을 최대한 활용할 수 있는 간단하고도 새로운 데이터 증강 기법을 제안했다.

이 방법은 개념 태그가 수천 개가 넘는 상황의 기술검증(PoC) 프로젝트까지 성공적으로 마쳐, 데이터를 적게 쓰고도 효과적으로 성능을 올릴 수 있음을 입증했다. 

두 번째 논문은 ‘더 많은 참조가 필요한 문제 생성 평가(Evaluation of Question Generation Needs More References)’으로 최근 주목받는 생성형 AI 기술인 챗GPT를 활용해 튜터링에 필요한 질문 생성 모델을 평가하는 방법을 제안했다. 질문 생성 과제에서 일반적으로 퀄리티를 평가하는 레퍼런스 질문은 하나인데, 챗GPT를 활용해 이를 확장하여 더 안정적으로 질문 생성 모델을 평가하는 방법이다.

실험 결과, 이러한 방법으로 사람의 평가와 더 높은 상관관계를 가진 평가가 가능하다는 점을 확인했다. 이 연구는 뤼이드가 자체 개발중인 질문 생성 모델에 활용될 예정이다.    

뤼이드의 AI 활용 연구 결과 발표는 2016년 이후 총 19건에 달한다. 세계적 권위의 글로벌 AI 컨퍼런스 뉴립스(NeurIPS), 전미인공지능협회(AAAI) 및 자연어처리 관련 북미전산언어학 학회(NAACL), 글로벌 자연어처리 학회(EMNLP), 그리고, 컴퓨터 비전 및 패턴 인식 학회(CVPR) 등에서 뤼이드의 연구 결과 논문이 발표된 바 있다. 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지