초대규모 한국어 AI ‘하이퍼클로바’ 포함해 웹, 모바일, 음성 검색에 사용된 한국어 처리 기술과 연구 성과 발표

초대규모(Hyperscale) AI ‘하이퍼클로바(HyperCLOVA)’ 이미지(사빈:본지)
초대규모(Hyperscale) AI ‘하이퍼클로바(HyperCLOVA)’ 이미지(사빈:본지)

한글 및 한국어 정보처리 학술대회(Human&Cognitive Language Technology. 이하,HCLT)는 매년 한글날 전후로 개최되는 한국어 처리 기술과 연구 성과를 공유하는 국내에서 가장 권위 있는 학술대회다. 

지난 10월 14일부터 15일까지 진행된 ‘한글 및 한국어 정보처리 학술대회(이하 HCLT, Human&Cognitive Language Technology) 2021’에서 네이버가 다양한 한국어 처리 기술과 연구 성과를 논문 15건을 발표했다. 이는, 전년 대비 2.5배 증가하는 성과다.

네이버는 국내 대표 AI 기술 플랫폼 기업으로써, 2014년부터 꾸준히 한국어 처리 기술 관련 최신 연구 성과를 이 자리에서 공유하고 있다. 한국어 처리 기술은 사람이 사용하는 언어인 한국어를 컴퓨터가 이해하도록 만드는 기술로, 네이버 검색의 핵심 기술 중 하나다.

 ‘HCLT 2021’에서 채택된 네이버의 연구 논문은 언어 처리 신뢰성, 기계 학습, 질의응답, 정보 추출, 언어 처리 응용, 대화 시스템, 온톨로지 등 다양한 분야를 포괄한다. 그중에는 한국어 초대규모 한국어 AI ‘하이퍼클로바’ 등을 개발하기 위해 수년간 진행해온 연구 과정과 성과들도 포함됐다.

 네이버는 이번 학회 발표를 통해 네이버의 독보적인 한국어 처리 기술 및 연구 수준을 선보였을 뿐 아니라, 외부 연구자들과 활발히 연구 성과를 공유하며 국내 AI 연구 수준 향상에도 기여했다는 평가를 받았다. 

네이버가 HCLT에서 발표한 연구 중 일부는 네이버 검색 서비스에 적용돼 사용자들에게 새로운 경험을 제공하고 있다.

 음성 대화 시스템의 슬롯 교정에 대한 연구는 AI 스피커의 음악 재생 기능에 적용되었으며, Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화 연구는 네이버앱 음성 검색의 검색 결과 및 질의 추천에 적용됐다. 

검색의도에 적합한 스니펫 추출 연구는 사용자들에게 보다 빠르게 정확한 정보를 제공하는 지식스니펫 서비스에 적용됐으며, 위키데이터 기반 분류체계 연구와 메타블로킹 연구는 사용자가 노래 제목을 검색했을 때 지식베이스에서 음원사이트로 바로 연결되는 기능으로 구현됐다.

​네이버 서치(Search) CIC 강인호 책임리더는 “네이버가 AI 연구 개발에 적극 투자해온 결과들이 본격적으로 국내외 학회에서 인정받고 있으며, 음성, 대화, 스니펫 등 네이버 검색 서비스에 적용되어 사용자들에게 새로운 검색 경험을 선사하고 있다”며 “독보적인 한국어 정보 처리 기술력을 기반으로 국내 서비스를 개선해 나가는 한편, 글로벌 빅테크와 경쟁하는 AI 기술 플랫폼으로 거듭나기 위해 연구 개발에도 정진할 것”이라고 말했다.

  

참고로 네이버 HCLT 2021 채택 논문 리스트는 다음과 같다.

▷언어처리 신뢰성

1. 자연어 생성 모델을 이용한 준지도 학습 기반 한국어 사실 확인 자료 구축(우수 논문 선정): 정재환 (Stanford University), 전동현, 김선훈, 강인호 (네이버)

​2. HyperCLOVA를 이용한 한국어 Fact 검증을 위한 자동 데이터 생성: 이종현, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)

​3. 증거와 Claim의 LM Perplexity를 이용한 Zero-shot 사실 검증: 박은환, 나승훈 (전북대학교), 신동욱, 전동현, 강인호 (네이버)

​▷기계학습

4. XH-DQN: 사실 검증을 위한 그래프 Transformer와 DQN 결합 모델: 서민택, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)

​5. Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상: 김성주, 김선훈, 박진성, 유강민, 강인호 (네이버)

​6. Prefix-tuning에 기반한 한국어 자연언어 처리: 민진우, 나승훈 (전북대학교), 신동욱, 김선훈, 강인호 (네이버)

▷질의 응답

7. Span Matrix를 이용한 다중 범위 추출 기계독해 시스템(우수 논문 선정): 장영진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)

​8. 클레버 한스 테스트를 통한 언어모델의 질의 이해 분석: 임정우, 오동석 (고려대학교), 박성진 (네이버), 황태선 (와이즈넛), 심미단 (경희대학교), 손수현 (고려대학교), 김유진 (Human-inspired AI 연구소), 임희석 (고려대학교)

​9. 기계독해 시스템에서 답변 불가능 문제 해결을 위한 독해 패턴 모방 방법: 이예진, 장영진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)

​10. 문장 표현 단위를 활용한 기계독해 시스템: 장연진 (건국대학교), 이현구, 신동욱, 박찬훈, 강인호 (네이버), 김학수 (건국대학교)

​▷정보 추출

11. 검색의도에 적합한 스니펫 추출: 이현구, 양윤영, 김은별, 차우준, 노윤영, 김은영, 최규현, 신동욱, 박찬훈, 강인호 (네이버)

▷​대화 시스템

12. 자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 * 우수 논문 선정: 최태균, 김민경, 이인재, 이지은, 박규연, 김경덕, 강인호 (네이버)

▷​언어처리응용

13. Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화: 서수빈, 인수교, 박진성, 남경민, 김현욱, 문기윤, 황원요, 김경덕, 강인호 (네이버)

​▷온톨로지

14. 방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축: 전희선, 김현호, 강인호 (네이버)

​15. 레코드 연결을 위한 속성인지 메타블로킹: 황재현

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지