임희석 교수는 "LLM의 환각현상과 일관성 부족 문제를 해결하기 위한 연구를 진행 중이며, 이에 대한 성과를 2024년 EMNLP, ACL, EACL, NAACL 등 인공지능분야의 주요 학술대회에 다수의 논문으로 발표할 것"...

임희석 교수(중앙)와 NLP&AI 연구실 연구원(사진:고려대)
임희석 교수(중앙)와 NLP&AI 연구실 연구원(사진:고려대)

고려대학교(총장 김동원) NLP&AI 연구실(지도교수 임희석 교수)은 지난 6일부터 10일까지 싱가포르에서 개최된 자연어 처리 분야에서 가장 권위 있는 학회인 'EMNLP2023'에서 6편의 논문을 소개하는 쾌거를 거뒀다.

올해는 총 4,908편의 논문이 제출됐으며 이 중 1,047편만 통과되어 최종 21.3%의 채택률을 기록했다. 이번 EMNLP 2023에는 마이크로소프트, 구글, 애플, 아마존 등 세계 유수의 테크 및 AI 기업들도 참가했다.

임희석 교수 연구실에서 발표한 6편의 논문은 각각 독창적이고 혁신적인 아이디어를 담고 있으며, 자연어처리 분야에서 중요한 발전을 이룬 결과들로 다음과 같다.

▷'한국어 형태소 성분을 활용한 생성적 데이터 증강(CHEF in the Language Kitchen: A Generative Data Augmentation Leveraging Korean Morpheme Ingredients-다운)'는 한국어 형태소의 특징을 고려한 데이터증강 기법을 제안한 것으로 업스테이지(대표 김성훈)와의 협업을 통하여 성과를 거두었다.

▷'ASR 및 후처리를 위한 한국어 오류 설명 가능 벤치마크 데이터 세트(KEBAP: Korean Error Explainable Benchmark Dataset for ASR and Post-processing(다운)' 이 논문은 한국어 음성 인식 및 후처리 분야를 위한 오류 설명 가능한 벤치마크 데이터셋인 KEBAP을 제안하였으며, 업스테이지와의 협업을 통하여 성과를 거두었다.

▷'충실한 지식 기반 대화를 위한 개체 마이닝을 통한 사후 발화 정제 방법(Post-hoc Utterance Refining Method by Entity Mining for Faithful Knowledge Grounded Conversations-다운)'란 제목으로 지식 기반 대화를 위한 발화 정제 방법을 제안하는 논문으로, 엔씨소프트와 공동연구를 통한 결과이다.

▷'페르소나와 지식을 활용한 적응형 대화 에이전트(Beyond Candidates: Adaptive Dialogue Agent Utilizing Persona and Knowledge-다운)'로 페르소나와 지식을 활용한 적응형 대화 에이전트에 관한 연구로, 더 다양하고 맞춤형 대화를 가능하게 하였다.

▷'효과적인 문서 간 관계 추출을 위해 엔터티를 연결하여 추론 경로 탐색(Explore the Way: Exploring Reasoning Path by Bridging Entities for Effective Cross-Document Relation Extraction-다운)'로 문서 간 관계 추출을 위해 엔터티 간 추론 경로를 연구하는 논문으로, 문서 간 관계 파악을 효과적으로 개선하였다.

▷'시간적 개입 및 환각 혼란에 대한 인과 추론 작업 설계(CReTIHC: Designing Causal Reasoning Tasks about Temporal Interventions and Hallucinated Confounding-다운)'란 제목으로 시간적 개입과 환각적 혼란 문제에 관한 인과 추론 작업을 설계한 연구로, 이 문제를 다루는 데 중요한 역할을 하였다.

더 나아가 임희석 교수는 "LLM의 환각현상과 일관성 부족 문제를 해결하기 위한 연구를 진행 중이며, 이에 대한 성과를 2024년 EMNLP, ACL, EACL, NAACL 등 인공지능분야의 주요 학술대회에 다수의 논문으로 발표할 것"이라고 밝혔다. 이를 통해 우리나라의 자연어 처리 분야의 명성과 고려대 NLP&AI 연구실의 명성을 한층 높일 것으로 기대된다.

한편, 임희석 교수 연구실은 2023년 6월에는 한국어 특화 LLM인 KULLM(구름)을 개발하고 일반에 공개하여 한국 LLM 생태계에도 크게 기여했고, Ko-CommonGen 데이터셋 구축 및 공개로 Open Ko-LLM 리더보드 운영에 기여하는 등 국내 자연어처리 분야의 선두 주자 역할을 하고 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지