이 모델은 영어 위키피디아 500만개 이상의 문서에 대한 사용자의 자연어 질의를 100ms(0.1초) 내외로 처리

(왼쪽부터) 프린스턴대 단치 첸(Danqi Chen) 교수, 고려대 이진혁 박사(사진:고려대, 프린스턴대)
(왼쪽부터) 프린스턴대 단치 첸(Danqi Chen) 교수, 고려대 이진혁 박사(사진:고려대, 프린스턴대)

고려대학교(총장 정진택) 컴퓨터학과 강재우 교수팀(이진혁 박사, 성무진 박사과정)과 프린스턴대학교(Princeton University) 단치 첸(Danqi Chen) 교수가 공동연구를 통해 500만개가 넘는 문서에 대한 자연어 질의에 답을 실시간에 찾을 수 있는 인공지능(AI) 모델을 개발했다.
 
'덴스프레이즈(DensePhrases)'라 불리는 이 인공지능 모델은 영어 위키피디아 500만개 이상의 문서에 대한 사용자의 자연어 질의를 100ms(0.1초) 내외로 처리한다. 

이 모델은 기존 최고 성능의 모델과 유사한 성능을 유지하면서도 20배가 넘는 속도 향상을 달성했으며 값비싼 GPU의 사용없이 모델을 구동할 수 있다는 장점을 지닌다.

덴스프레이즈는 사용자가 일상어로 작성한 질문에 대한 답을 위키피디아에서 찾는다. 예를 들어, “2016년 올림픽 남자 에페에서 금메달을 딴 사람(Who did win a gold medal in the men's epee at the 2016 Olympics)”에 대한 질문이 주어지면 실시간으로 Fencing at the 2016 Summer Olympics라는 위키피디아 문서로부터 Park Sang-young이라는 구체적인 정답을 찾아준다.

이번 연구는 프린스턴대에 방문연구 중인 고려대 이진혁 박사 주도하에 성무진 박사과정과 프린스턴대 단치 첸 교수가 참여했으며, 8월 1일부터 6일까지 가상으로 개최된 글로벌 인공지능 자연어처리분야 최고 권위 학회인 자연어처리 국제공동회의 2021(ACL2021) 에서 8월 4일에 발표됐다.

연구팀이 공개한 체험 사이트 캡처
연구팀이 공개한 체험 사이트 캡처

이 연구는 지난 수년간 이진혁 박사가 주도해온 ‘구 기반 질의응답(Phrase-Indexed QA)’과 ‘오픈도메인 질의응답(Open-Domain QA)’기술을 발전시킨 결과이다. 이 사전연구들 또한 2019년과 2020년에 각각 ACL에 발표되어 올해로 3년연속 최고권위 학회인 ACL 에서 그 연구 성과를 인정받게 됐다.
 
모델 덴스프레이즈의 학습에는 기계독해(Machine Reading Comprehension) 데이터셋과 질의생성(Question Generation) 모델을 활용하여 생성된 150만 여건의 데이터가 사용됐으며 현재, 모델과 데이터세트는 깃허브를 통해 공개(다운)됐다. 누구나 직접 체험이 가능하다. 

이 모델은 위키피디아 뿐만 아니라 다양한 도메인의 대용량 문서 빅데이터에도 적용 가능하도록 설계되어 학계와 산업계의 다양한 분야에서 자연어 기반 QA 플랫폼으로 활용 가능하다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지