"사람은 일상생활을 하면서 인식, 추론, 예측 등 범용적인 지능을 사용하고, 이를 언어라는 도구를 이용하여 표현하고 다른 사람과 상호작용을 하듯이 컴퓨터도 사람과 같이 일상적인 일에 대해 자연스러운 대화를 수행하려면 범용 인공지능(AGI)이 필요합니다"...

엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)
엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)

지금까지 대화형 언어 인공지능(AI)에 대한 기존의 공개 연구는 통제된 환경에서 주석자와의 인간 모델 대화에 초점을 맞추고 있다. 그러나 연구자가 연구 환경에서만 모든 대화 시나리오를 예측하거나 시뮬레이션 할 수는 없다.

AI 언어 인공지능 모델은 인간처럼 우리를 이해하고, 참여하며, 대화할 수 있는 진정한 지능형 AI 시스템과는 아직 거리가 있지만, 실제 환경에 더 적응할 수 있는 모델을 구축하기 위해서는 AI는 사람들과 함께 다양하고 광범위한 시각에서 학습해야 한다.

이것들은 아직 미해결 문제이며, 공동체에 의해 수행되어야 하는 새로운 연구가 지속적으로 필요하다. 언어 인공지능 분야  국내 최고 전문가들를 찾아 인공지능 챗봇 및 언어 AI 기술과 비전을 그리고 인사이트를 공유해 본다. <편집자 주>

엑소브레인 국가연구개발 프로젝트 총괄책임자로 글을 이해하는 인공지능(AI)을 넘어 사람의 말까지 이해할 수 있는 AI 서비스 개발에 박차를 가하고 있는 한국전자통신연구원(이하, ETRI) 언어지능연구실 임준호 책임연구원을 만났다.

엑소브레인은 인공지능 분야에서 국가 및 기업의 미래 경쟁력 강화를 위해 시작된 국내 대표적인 R&D 프로젝트다. 사람과 실질적인 의사소통이 가능할 뿐 아니라 의사결정에 지적으로 협력할 수 있는 국산 인공지능 소프트웨어 개발을 목표로 하며, EBS 장학퀴즈에 출연해 인간을 이기고 우승하면서 널리 알려지기도 했다.  

Q . 올 해가 엑소브레인 프로젝트 과제 마지막 연차로 그동안 국내 여러 기업에 기술 이전된 것으로 알고 있습니다. 현재 엑소브레인 과제 결과는 어떻게 평가하십니까?

. 엑소브레인 과제는 2014년에 시작된 한국어 인공지능 연구개발 과제이고, 과제를 통해 도출된 성과는 국내 인공지능 생태계 확대에 많은 기여를 했다고 생각합니다.

첫 번째로, 엑소브레인 과제에서 형태소분석, 개체명인식, 의존구문분석 등 한국어분석 가이드라인을 TTA라는 표준화 단체를 통해 표준화 하였고, 최근 인공지능 학습용 데이터 구축 시 엑소브레인 과제에서 표준화한 가이드라인에 기반하여 데이터가 구축되었습니다.

두 번째로, 엑소브레인 과제에서 개발하여 공개한 한국어 분석 OpenAPI는 누적 6천만건 이상이 사용되었습니다. 국가 R&D 연구결과 중에서 학계 및 산업계의 활용 사례가 가장 많은 결과일 것으로 생각합니다.

마지막으로, 엑소브레인 과제에서 개발한 기술은 다수의 기업에 이전하고, 기술이전 기업을 통해 사업화를 수행하였습니다.

엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)
엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)

엑소브레인 기술을 활용한 서비스로 과기정통부 장관상을 수상한 기업들도 다수 있고, IPO에 성공한 기업도 있습니다. 엑소브레인 과제를 통해 인공지능이 많은 관심을 받는 시기에 기업들이 필요로 하는 기술을 적시에 공급할 수 있었다고 생각합니다.

Q . ETRI의 언어지능 연구실은 현재 어떤 연구를 가장 중점적으로 하고 계신가요?

. ETRI 언어지능연구실은 사람이 사용하는 언어와 관련된 다양한 연구를 진행하고 있고, 현재 크게 질의응답 기술과 대화처리 기술이 있습니다.

질의응답 기술 관련하여 다중 근거 추론 및 판단 근거를 설명 가능한 질의응답 기술을 연구하고 있고, 대화 기술 관련하여 지문을 학생과 같이 읽어 독해 교육을 하는 독해튜터링 대화처리 기술과 대화 시스템간 상호대화로 학습하는 자가대화형 강화학습 대화 기술을 연구하고 있습니다.

향후에는 질의응답 기술을 확장하여 전문가의 의사결정을 지원하는 기술, 텍스트와 그림으로 되어 있는 학습자료를 이해하여 대화하는 교육용 대화처리 기술로 연구를 이어갈 계획입니다.

Q . 정부가 지원해 만드는 여러 데이터셋 구축에도 ETRI가 참여하고 계신 것으로 압니다. 언어 데이터 결과가 ETRI의 언어지능 연구에 도움을 주고 있나요? 있다면 어떤 데이터셋이 가장 활용도가 높았나요?

ETRI는 데이터셋 구축 과제의 수해기관(구축자)로 참여하고 있지는 않습니다. 대신 어떤 데이터셋을 구축해야 할지 논의, 결정하는 기획 위원회에 참여하여, 한국어 인공지능 발전에 필요한 데이터를 제안하고 있습니다.

물론 구축된 데이터는 저희도 다운로드 받아서 연구에 같이 활용하고 있습니다. 엑소브레인 과제의 주요 연구주제가 딥러닝 언어모델, 심층 질의응답 주제여서, 대용량 원시 데이터 수집 말뭉치, 질의응답 기술과 관련된 말뭉치를 주로 활용하고 있습니다.

Q . 올해 진행 중인 과기정통부의 한국형 블렌더 봇 데이터 구축에 대해 언어지능 전문가로 몇 가지 조언을 해 주신다면 어떤 의견을 주시겠습니까?

한국형 블렌더 봇 데이터에는 외부 지식 탐색, 이전 대화 세션 요약, 감성 대화 등 대화에 필요한 다양한 기술이 반영되어 있고, 이는 최근 초거대 언어모델 흐름과 맞물려 매우 중요한 데이터셋으로 생각합니다.

초거대 언어모델도 학습 시 배운 내용으로만 결과 생성이 가능한 한계가 있는데, 블렌더 봇 데이터를 통하여 이와 같은 한계를 개선하는데 많은 도움이 될 것입니다.

블렌더 봇 데이터 중, 외부지식 탐색은 검색 기술을 포함하고, 검색 키워드 생성 및 검색 결과 기반 대화 생성 태스크를 수행해야 합니다. “이순신 장군이 태어난 년도는?”과 같은 질문은 시기에 따라서 답이 달라지지 않지만, “대한민국의 대통령은?” 및 “서울시청 주변 맛집”과 같이 학습데이터 구축 시점의 검색 결과와 AI기술 개발 이후 적용 시점의 검색 결과가 달라집니다.

엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)
엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)

즉, 데이터셋 구축 시 이와 같이 시기에 따라 답이 달라지는 검색, 대화에 대한 고려가 필요하고, 추후 블렌더봇 데이터를 활용하는 개발자들이 검색 대상이 되는 위키백과의 버전 및 데이터도 확인 가능하도록 데이터셋 구축 시 미리 고려가 필요합니다.

그리고 딥러닝 기술은 학습데이터와 유사한 분포의 평가데이터에서는 높은 성능을 보이지만, 학습데이터와 다른 분포의 평가데이터에서는 성능이 낮아지는 일반화(generalization)의 한계가 있습니다. 블렌더봇 데이터를 구축하고, 학습/평가 집합을 구분할 때 AI 기술의 일반화 능력 평가가 가능하다면 실제 활용에 더 많은 도움이 될 수 있습니다.

Q . 일상 대화를 위한 챗봇을 만든다는 것의 의미는 무엇일까요? 얼마나 어려운 문제인지요

. 사람은 일상 생활을 하면서 인식, 추론, 예측 등 범용적인 지능(general intelligence)을 사용하고, 이를 언어라는 도구를 이용하여 표현하고 다른 사람과 상호작용을 합니다. 컴퓨터도 사람과 같이 일상적인 일에 대해 자연스러운 대화를 수행하려면 AI의 궁극적인 목표와 같은 범용 인공지능(artificial general intelligence, AGI)가 필요합니다.

현재, 딥러닝 기술의 발전을 이용하여, 사람들이 일상적으로 나누는 대화 데이터를 수집하고, 이를 학습한 AI 기술을 개발하면 홀로 사는 노인 분과 대화하는 AI 등 사람들에게 도움을 주는 AI 기술 개발은 가능하고, 특히 초거대 언어모델을 이용하면 기존 기술들보다 자연스러운 수준의 대화가 가능합니다.

하지만 지금과 같은 데이터 학습 기반 접근방법으로 도달하기 어려운 수준의 한계는 반드시 있고, 사람과 같이 일상 생활에 대한 자연스러운 상호작용을 목표로 한다면 자연지능 모사 등 현재의 데이터 지도학습 중심 접근방법과는 다른 접근방법이 필요할 것으로 생각합니다.

Q . 올해는 한국형 대규모 이미지, 챗봇용 대규모 대화 등 국내에서 지금까지 개발한 것보다 큰 규모의 데이터셋이 만들어지고 있습니다. 이를 연구자들이나 사업체에서 좀 더 활발히 활용하게 하기 위해서는 어떤 노력이 더 필요한지요?

AI기술 발전에 중요한 데이터이고 데이터셋 구축에 많은 수고와 노력을 들이신 만큼, 구축된 데이터가 많이 활용될 수 있기를 응원합니다.

산업계 대상 활용성 확대를 위하여는 대화, 이미지 등 각 유형 별 데이터셋 대상으로 우수 활용 사례 발굴, 해당 사례에 대한 오픈소스 시 인센티브 제공 등의 방법이 있을 것으로 생각합니다.

학계 대상 활용성 확대를 위하여는 메타의 Blenderbot 2.0 기술과 한국형 블렌더봇 데이터로 학습한 챗봇 사이의 비교 컴피티션, 한국형 블렌더봇 데이터 학습으로도 해결되지 않는 대화 기술의 한계를 분석한 학회 워크샵 등을 개최한다면 보다 많이 활용될 수 있을 것으로 기대합니다.

Q . 새로운 도전을 하신다고 들었습니다. 어떤 기술이며 비즈니스인지 알려주실 수 있을까요?

저는 2022년 7월 ㈜튜터러스랩스라는 회사의 공동창업자로 새로운 도전을 시작하였습니다. 최근 많은 관심을 받고 있고 경쟁도 치열한 에듀테크 분야의 비지니스이고, 엑소브레인 과제에서 개발한 언어 이해, 지식 학습, 질의 응답 기술을 교육 도메인에 적용하여 많은 학생들에게 도움을 주고자 합니다.

현재, 교육 서비스가 오랜 기간 정착되어 안정적이지만 AI를 활용하여 보다 효율적일 수 있다는 생각, 보다 공평하고 효율적인 교육 서비스는 누군가의 인생을 달라지게 할 수 있다는 생각으로 새로운 도전을 하게 되었습니다. 향후 많은 학생들이 사용하는 서비스로 다시 인사드릴 수 있기를 고대합니다.

엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)
엑소브레인 국가연구개발 프로젝트 총괄책임, ETRI 언어지능연구실 임준호 책임연구원(사진:본지)

한편, 지난 몇 년 동안, 메타는 AI 챗봇 블렌더봇(BlenderBot)과 그 후속 제품으로 더 스마트한 대화형 AI 시스템을 구축하는 데 흥미로운 진전을 이루고 있다.

메타의 블렌더봇 시리즈는 성격, 공감, 지식과 같은 대화 기술을 결합하여 장기 기억을 통합하고 의미 있는 대화를 수행하기 위해 인터넷을 검색하여 거의 모든 주제에 대해 이야기할 수 있는 큰 진전을 이루고 최근 1,750억개 매개변수의 '브렌더봇 3(BlenderBot 3)'을 지난 5일 오픈소스로 공개했다.

메타의 AI 챗봇 블렌더봇은 현재까지의 어떤 모델보다 실시간 인터넷 검색과 거의 모든 주제에 대한 정교한 대화 등을 동시에 할 수 있는 성능이 뛰어나고 더 인간적인 느낌을 줄 수 있다.

'한국어 블렌더 봇 데이터 구축' 사업은 일상대화 챗봇에서 나타나는 문제점들, 즉 일관된 정체성을 유지하지 못하거나 외부 세계의 새로운 정보를 반영하지 못하는 점, 상대의 감정에 적절하게 공감을 하지 못하는 점 등을 해결하는 것을 목표로 한다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지