LG CNS, AI 학습용 표준데이터 10만개로 확대해 공개
국내 AI 기술 발전과 개방형 생태계 조성에 기여

LG CNS가 국내 처음이자 유일하게 AI의 연어 이해를 위한 AI 학습용 표준데이터 ‘코쿼드 2.0(KorQuAD 2.0)’를 5일 공개하고 국내 AI 업계에 무료로 개방한다고 발표했다.

사진은 코쿼드 웹사이트 캡처

‘코쿼드 2.0’은 지난해 12월 ‘코쿼드 1.0’ 대비 한국어 표준데이터를 7만개에서 10만개로 확대했다. 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이다.

이번 추가 공개는 LG CNS가 표준데이터를 제작해 자사 AI 개발에만 활용하는 것이 아니라 외부에 개방해 향후 AI 연구자들 간의 시너지를 통한 국내 인공지능 기술 발전에 기여한다는데 그 의미가 크다.

예를 들어 “대한민국의 수도와 그 면적은?” 이라는 질문에 “서울특별시, 605.25km2 입니다” 라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발 가능했다. 하지만 “서울특별시의 특징은?” 이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…” 이라는 장문의 답을 위해서는 이제, 코쿼드 2.0으로 학습을 통해 가능해진 것이다.

특히 한국어 표준데이터 코쿼드 2.0은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다.정보 4만건과 질의응답 세트 10만건으로 구성되어 있다. 10만건의 질의응답 세트 중 약 9만건은 AI 학습용으로 사용되고, 1만건은 개발된 AI의 성능 평가용으로 사용된다.

아울러 코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능 평가를 받을 수 있으며 리더보드에 등재돼 다른 AI와의 성능 수준을 비교해볼 수도 있다. 성능 평가 결과는 EM(실제 정답과 정확하게 일치하는 비율)과 F1(정답과 유사한 답변을 내놓는 비율) 점수로 나타난다, 사람은 평균 EM(80.17점), F1(91.20점)을 기록한다.

현재 리더보드 1위인 네이버가 코쿼드를 사용해 개발한 AI의경우 EM(86.84점), F1(94.75점)을 기록 중이며, 이는 사람보다 높은 답변 수준임을 나타내고 있는 것이다.

한편, AI의 연어 이해를 위한 AI 학습용 표준데이터는 코쿼드 웹사이트(바로가기)에서 다운로드 받을 수 있으며 누구나 활용 가능하다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지