네이버 클로바 대화AI 팀을 이끌고 있는 박우명 리더는 확률 및 통계 기반의 응용 기술을 연구하고 개발하는 일을 주로 수행하고 있다(사진:본지)
네이버 클로바 대화AI 팀을 이끌고 있는 박우명 리더는 확률 및 통계 기반의 응용 기술을 연구하고 개발하는 일을 주로 수행하고 있다(사진:본지)

지금까지 대화형 언어 인공지능(AI)에 대한 기존의 공개 연구는 통제된 환경에서 주석자와의 인간 모델 대화에 초점을 맞추고 있다. 그러나 연구자가 연구 환경에서만 모든 대화 시나리오를 예측하거나 시뮬레이션 할 수는 없다.

AI 언어 인공지능 모델은 인간처럼 우리를 이해하고, 참여하며, 대화할 수 있는 진정한 지능형 AI 시스템과는 아직 거리가 있지만, 실제 환경에 더 적응할 수 있는 모델을 구축하기 위해서는 AI는 사람들과 함께 다양하고 광범위한 시각에서 학습해야 한다.

이것들은 아직 미해결 문제이며, 공동체에 의해 수행되어야 하는 새로운 연구가 지속적으로 필요하다. 언어 인공지능 분야 국내 최고 전문가들를 찾아 인공지능 챗봇 및 언어 AI 기술과 비전을 그리고 인사이트를 공유해 본다. <편집자 주>

본지는 국내 대화 AI 분야 최고 전문가로 꼽히는 네이버 클로바 대화 AI 팀을 이끌고 있는 박우명 리더를 만났다.

클로바(CLOVA)는 네이버와 라인(LINE)이 공동 투자하여 인공지능 연구 및 개발을 위하여 설립한 조직으로 한국 및 일본에서 가장 큰 AI 기술 조직이며, 다양한 서비스에 AI 기술을 적용하고 사업화하고 있다.

특히, 클로바 '대화 인공지능(Conversation AI)' 팀은 인공지능(AI) 기술을 통해 실제 삶에서 발생하는 문제를 해결하여 사람들에게 가치를 주는 서비스나 제품을 구현하는 것을 목표로 한다. 그 중에서도 특히, 언어 및 대화가 가진 가치에 주목하고 사람들에게 도움이 될 수 있는 자연어 기반의 다양한 애플리케이션을 개발하고 있다.

또한 AI를 더 똑똑하게 하고 책임감(윤리) 있는 지능을 만들기 위하여 네이버 및 라인에서 보유한 방대한 데이터를 기반으로 국내에서의 AI 퍼스트무버(first mover)를 넘어 글로벌 AI 기술 리더로 발돋움하겠다는 계획으로 지난해 5월, 국내 최초로 선보인 초대규모 인공지능(Hyperscale AI) ‘하이퍼클로바(HyperCLOVA)’ 모델의 연구 및 개발을 수행하고 있다.

클로바 대화 AI 팀을 이끌고 있는 박우명 리더는 확률 및 통계 기반의 응용 기술을 연구하고 개발하는 일을 주로 수행하고 있다. 머신러닝 기반의 추천 시스템 개발이나 딥러닝 기반의 대화서비스 개발 등이 그 예다. 박 리더는 서울대학교와 미국메릴랜드대학교, 칼리지 파크(University of Maryland, College Park)에서 학위과정을 마친 후 삼성전자와 피키캐스트에서 근무하다가 2016년 Company.AI라는 AI 챗봇 스타트업을 공동창업하고 2017년, 네이버에 인수되어 현재까지 클로바에 재임하고 있다.

Q . 클로바 사업팀의 하이퍼클로바 모델 활용과 대화 AI에서의 인공지능 기술 영역은...

우선 HyperCLOVA는 GPT-3보다 6,500배 많은 한국어 데이터 학습으로 클로바에서 공개한 초거대 언어모델로 최초의 한국어 전용 초거대 AI 기술입니다. 특히, HyperCLOVA는 기존 AI기술 대비 매우 뛰어난 언어 이해 능력과 글 생성 능력을 가지고 있습니다.

클로바에서는 이러한 뛰어난 능력을 가진 HyperCLOVA 기술을 대화 및 자연어 기반 어플리케이션에 적용하기 위한 시도를 지속하고 있습니다. AI 기반의 대화 시스템을 만드는데 있어서 가장 큰 어려운 점은 서비스에 적합한 학습용 데이터를 수집하는 일입니다. 과거에는 일반적으로 모델 학습에 필요한 데이터를 사람들이 직접 만들어서 사용하였는데 이 과정에서 꽤 많은 비용 및 시간이 필요했습니다.

그러나, HyperCLOVA가 가진 뛰어난 언어 생성 능력을 활용하여 데이터를 제작함으로써 실제 데이터 제작에 필요한 시간 및 비용을 크게 절감할 수 있었고 예를 들어, 최근에 정식 출시한 클로바 케어콜 같은 서비스의 경우 기존 대비 데이터 제작 효율을 최소 5배 이상 향상시킬 수 있었습니다.

그 다음으로 대화 시스템에서 어려운 문제로는 여러 턴에 걸친 대화의 맥락을 파악하고 그것에 적절한 답변을 생성하는 것입니다. 불과 3-4년전만 하더라도 몇턴까지의 내용을 기억해야 할지, 유저가 어떤 주제의 어떤 발화를 할지 등을 사전에 정해서 설계하는 것이 매우 어렵기 때문에 이러한 자연스러운 멀티턴의 일상 대화는 거의 불가능에 가까운 문제로 인식되었습니다. 그러나 GPT-3나 HyperCLOVA와 같은 초거대 모델의 등장은 불가능해 보였던 위 문제를 해결할 수 있는 가능성을 보여주었습니다.

이처럼 저희는 HyperCLOVA를 다양한 도메인에 적용하는 도전을 지속하고 있으며 여러 분야에서 성과를 만들어가고 있지만 아직 모든 영역을 대체하고 있는 것은 아니며 기존 기술도 여전히 널리 활용되고 있습니다.

HyperCLOVA는 엄청나게 많은 파라미터를 가진 모델을 대량의 데이터로 학습한 모델로 기존 AI 기술 대비 훨씬 뛰어난 능력을 가졌지만 대신 모델을 학습하고 사용하는데 드는 계산량이 훨씬 많아 전력 소모나 사용 비용 등이 매우 높습니다. 따라서 서비스에서 필요로 하는 task가 비교적 단순하여 기존 기술로도 충분히 높은 성능을 얻을 수 있는 경우에는 운영상 효율성 측면에서 기존 AI 기술을 여전히 많이 사용하기도 합니다.

"팀의 목표는 사람같이 대화할 수 있는 인공지능을 책임감(윤리)을 기반으로 지속적으로 연구하여 실생활에 도움이 될 수 있는 다양한 대화 서비스를 만드는 것입니다"(사진:본지)
"팀의 목표는 사람같이 대화할 수 있는 인공지능을 책임감(윤리)을 기반으로 지속적으로 연구하여 실생활에 도움이 될 수 있는 다양한 대화 서비스를 만드는 것입니다"(사진:본지)

그리고 또 한가지 이유는 AI기술의 본질적인 속성과 관련이 있는데요. AI 기술은 주어진 데이터를 기반으로 통계적인 분포를 학습하여 새로운 데이터에 대한 확률적인 예측을 수행합니다. 그렇기 때문에 AI기술의 경우 잘못된 데이터를 학습했거나 학습 시 미처 보지 못한 전혀 다른 데이터가 들어오는 경우 틀릴 수 있는 가능성이 존재합니다. 그렇지만 비즈니스 요구사항에 따라서는 좁은 영역에서 높은 정확도가 필요한 경우도 존재합니다.

예를 들어, 식당 예약을 받아주는 서비스를 구현한다고 할 때 고객의 의도를 잘못 이해해서 예약을 원하는 손님을 놓치거나 혹은 예약의 변경이나 취소를 제대로 수행하지 못한다면 실제 식당에 큰 피해를 줄 것입니다. 이러한 경우 대화의 coverage는 좁지만 정확도가 높은 도메인 특화 모델을 사용하거나 비즈니스 로직을 개발하여 적용하는 등 기존 기술의 장점을 적극 활용하여 문제를 해결해가고 있습니다.

Q .  네이버 서비스 안에서 가장 많이 대화 AI 기술이 적용·사용되고 있는 분야는...

저희 팀의 목표는 사람같이 대화할 수 있는 기술을 지속적으로 연구하여 실생활에 도움이 될 수 있는 다양한 대화 서비스를 만드는 것입니다. 그 중 대표적인 것으로 여러 분들이 일상생활에서 만날 수 있는 인공지능 스피커인 CLOVA Speaker, 전화로 고객 응대를 도와주는 AiCall, 네이버 쇼핑의 스마트스토어 점주들의 고객 응대를 도와주는 LiveChat, 고객이 자신이 가진 데이터를 활용하여 손쉽게 챗봇을 제작할 수 있는 챗봇 빌더 등의 서비스 및 도구가 존재합니다.

최근에는 다양한 도메인에서 HyperCLOVA를 활용하여 서비스에 적용하는 시도를 하고 있습니다. 그 중 가장 대표적인 서비스로 CLOVA CareCall이 있습니다. 이 서비스는 작년 부산 해운대구에서 베타 서비스를 시작하여 지난 5월 정식으로 런칭하였고 홀로 사시는 어르신들에게 정기적으로 안부 전화를 걸어 대화를 하고 말벗이 되어 주는 역할을 하는 서비스입니다.

이 서비스는 HyperCLOVA가 가진 뛰어난 언어 이해 및 생성 능력을 활용하여 여러 턴에 걸친 대화의 맥락을 이해하며 자연스러운 대화를 수행하는 대표적인 사례입니다. 그 외에도 사람의 마음을 이해하고 교감하는 캐릭터 챗봇, 문서를 활용하여 관련한 고객 질의에 응대할 수 있는 챗봇을 손쉽게 제작하는 도구 등 HyperCLOVA의 기술을 적용할 수 있는 분야에 대하여 다양한 연구를 수행하고 있습니다.

Q . 특정 도메인의 대화와 일상 대화는 여러 가지 접근 방식이나 기술의 차이와 일상 대화(케어콜이 아닌)에서 가장 어려운 문제는...

사람에게 있어서 대화는 다른 사람과 의사 소통을 할 수 있는 가장 기본적인 수단입니다. 그렇기 때문에 ‘자연스럽게 대화한다'는 것에 대해서 사람들이 가지는 기대 수준이 매우 높으며 이는 AI 기술로 대화 시스템, 특히 일상 대화를 구현할 때 가장 어려운 점이라 할 수 있습니다.

일반적으로 특정 비즈니스 도메인에서의 대화는 달성하고자 하는 목적이 명확하며 일반적으로 대화의 범위가 좁기 때문에 의도한 행동만 수행할 수 있다면 대화의 수준 자체가 상대적으로 중요하지 않습니다. 그렇지만 대화 자체가 중심인 일상 대화에서는 그 문제점이 더 부각됩니다. 그 중 몇 가지만 설명해 보도록 하겠습니다.

현재, HyperCLOVA를 활용한 대화 시스템의 경우 과거 대화 맥락을 이해하고 각 순간마다 문맥상 ‘그럴듯한' 답변을 하는 능력은 뛰어납니다. 그렇지만 AI가 생성한 답변이 언뜻 보면 말이 되나 사실이 아닌 말을 지어내거나 혹은 이전에 했던 말과 모순이 되는 경우가 종종 발생합니다.

모델은 주어진 데이터로 미리 학습하였기 때문에 학습하지 않은 정보나 새롭게 바뀌는 최신 정보에는 적절히 대응하지 못할 수 있으며 그렇기 때문에 사실이 아닌 답을 마치 사실인양 답을 하는 경우가 발생할 수 있습니다. 이것을 학계에서는 hallucination 이라고 부르는데요. 이는 현재 AI 기반의 대화 시스템이 가지고 있는 중요한 문제 중 하나라 할 수 있습니다.

다음으로 AI 대화가 사람과 대화와의 큰 차이점으로는 기억력이 없다는 점을 들 수 있습니다. 과거에 했던 이야기를 기억하지 못하여 했던 얘기를 반복하거나 매번 대화할 때마다 마치 처음 이야기하듯 대화한다는 점입니다. 이에 따라서 사람과의 대화와 다르게 대화를 함에 따라 관계를 발전시키고 친밀감을 형성할 수 없어 지속적으로 대화를 이어가는 데에 어려움이 존재합니다.

마지막으로 말씀드리고 싶은 부분은 AI 윤리와 관련된 이슈입니다. AI 기술은 그 자체로는 중립적이며 어떤 것이 맞고 틀린지, 무엇이 사회적으로 논란이 되는 이야기이고 어떤 내용은 괜찮은지 등에 대하여 판단을 할 능력이 없습니다. 이것을 AI에게 이해시키고 판단을 할 수 있게 하려면 사회적으로 합의된 명확한 기준이 있어야 하고 그 기준을 판단할 수 있도록 모델을 학습 시킬 수 있는 데이터셋이 필요합니다.

특히, 저희 네이버에서는 일찍부터 이러한 AI 윤리 문제를 풀기 위한 노력의 일환으로 SAPI(SNU AI Policy Initiative; 서울대 인공지능정책 이니셔티브)와 같은 외부 전문가들과 함께 '네이버 AI 윤리 준칙'을 발표하는 등 다양하게 협력하고 있습니다.

Q . 정부 주도의 AI 데이터 세트 구축 프로그램이 이제 3-4년 운영되었는데, 네이버의 챗봇 또는 클로바 팀에서 가장 도움이 된 데이터셋은 무엇인지, 그리고 앞으로 도움이 될 수 있는 분야는 어떤 것이...

한국어의 경우 영어 대비 양질의 데이터셋이 상대적으로 부족하며 특히 대화 및 구어체 데이터를 구하는 것은 더 어렵습니다. 그런 의미에서 저희가 대화 서비스를 개발하는데 있어 AIhub를 통해 공개된 일상 대화, 대화 요약, 감정 분류, SNS 데이터 등은 구어체 및 대화 형태의 글을 이해하는데 큰 도움이 되고 널리 활용하고 있습니다. 그 외에도 음성 사투리 데이터는 음성 인식기의 성능을 높이는데 매우 유용하게 활용하고 있으며 기타 문서 요약이나 번역 데이터 등도 큰 도움이 되었습니다.

"개발자들이 널리 사용하는 깃허브(github) 같은 환경을 사용하고 공개하여 관리한다면 통계를 내기도 용이하고 이것을 활용하는 개발자들이 직접 코드를 개발하거나 개선하여 오픈소스로 공유하는 등 자연스럽게 국내 AI 생태계 안에서 널리 쓰이고 진화할 수 있지 않을까 합니다"(사진:본지)
"개발자들이 널리 사용하는 깃허브(github) 같은 환경을 사용하고 공개하여 관리한다면 통계를 내기도 용이하고 이것을 활용하는 개발자들이 직접 코드를 개발하거나 개선하여 오픈소스로 공유하는 등 자연스럽게 국내 AI 생태계 안에서 널리 쓰이고 진화할 수 있지 않을까 합니다"(사진:본지)

추가로 도움이 될 수 있을만한 데이터로는 앞서 4번에서 설명드린 문제인 AI 윤리와 관련한 데이터를 들 수 있습니다. 민감 주제나 윤리에 대한 판단 기준은 개인이나 특정 단체가 임의로 만들 수 있는 것이 아니라 사회적인 합의가 필요한 매우 중요한 문제라 생각합니다.

이러한 합의된 기준이 바로 서지 않으면 아직은 불완전한 기술로 새로운 도전에 나섰다가 큰 피해를 감수하기 보다는 risk를 회피하는 방향으로 조심하게 되어 기술 발전이 느려질 수도 있다고 생각합니다. 따라서 이러한 윤리적인 기준을 판단할 수 있는 데이터셋이 구축된다면 앞으로 국내의 AI기술 발전을 보다 더 가속화시킬 수 있을 것으로 판단합니다.

Q . 올해, 과학기술정보통신부와 NIA가 주관으로 추진 중인 한국형 블렌더 봇((Blender Bot) 데이터셋 구축 과제를 볼 때 네이버 입장에서 가장 도움이 되는 방향이 되려면 어떤 영역의 데이터가 구축되어야 하는지 조언을...

앞서 말씀드린대로 한국어의 경우 활용할 수 있는 일상 대화 데이터가 적은 상황입니다. 따라서 한국어 대화의 일반적인 능력을 향상시킬 수 있는 양질의 대화 데이터셋이 많이 있으면 큰 도움이 될 것 같습니다.

특히, 여기에는 개인정보 등의 이슈로 카톡과 같은 실제 서비스 데이터를 사용할 수 없기 때문에 최대한 다양한 상황과 주제, 시나리오에 대하여 설계하여 제작한 대량의 데이터가 있으면 더 좋을 것 같습니다. 그 밖에 AI 윤리와 관련한 부분은 앞에서 드린 답변으로 갈음하겠습니다. 

Q . 요즘 데이터 세트 공개가 이슈인데요, 하이퍼클로바 개발과 또 다른 AI 모델 개발에서 사용한 데이터셋 중에 향후, 네이버에서 공개할 계획을 갖고 계신 데이터셋은 어떤 것이 있는지...

네이버에서는 내부적으로 제작하고 사용한 데이터 중 여러 가지를 공개하였습니다. 대표적으로 음성 전화 환경에서 고객 응대를 수행하는 ClovaCall 데이터를 공개하였고 또한, 작년 업스테이지와 공동으로 주축이 되어 진행하고 공개한 한국어 NLP 벤치마크 데이터셋인 클루(KLUE, Korean Language Understanding Evaluation)가 있습니다.

최근에는 케어콜 서비스 개발을 통하여 구축한 대화 데이터 및 장기기억 연구를 위해 제작한 데이터셋을 공개하기도 하였습니다.

컴퓨터 비전 분야에서는 이미지 생성에서 StarGAN v2와 함께 공개한 Animal Face-HQ(AFHQ) 데이터가 전세계의 벤치마크 데이터로 널리 사용되고 있으며 COCO의 caption을 개선한 데이터도 곧 공개 예정입니다.

그밖에도 네이버는 github을 통해 많은 코드를 오픈 소스로 공개하고 있습니다. 앞으로도 국내외 AI 기술의 저변 확대 및 생태계를 위하여 이와 같이 데이터셋 공개 및 코드 공개 활동을 최대한 열심히 노력할 예정입니다.

Q . 마지막으로 정부가 추진해 온 AI DATASET 구축 과제의 향후 발전을 위해서 조언(사용 활성화를 위해서 정부 또는 민간 기업의 어떤 협력이 필요할 것인지, 학계의 관심을 좀 더 이끌어 내기 위한 노력은 무엇일지, 외국 개발자들이 국내 데이터셋에 좀 더 쉽게 접근하고 활용하게 만들 방안은)을 ...

일반적으로 AI모델을 개발하기 위해서는 다양한 종류의 많은 데이터가 필요하다고 알려져 있는데요. 그것 못지 않게 중요한 것이 ‘높은 품질'을 가지면서 ‘필요한' 주제의 데이터를 확보하는 것입니다. 이것과 관련해서 최근 전해듣기로 정부에서 추진하는 AI 데이터셋 구축 사업이 품질 개선형 과제도 생겼다고 들었는데 매우 바람직한 방향이라고 생각합니다.

추가로 각 데이터셋이 어디에 얼마나 활용되고 있는지 통계를 내어 tracking하고 활용도가 떨어지는 데이터의 경우 무엇이 문제인지 확인하여 데이터 품질을 개선하는데 참고할 수 있으면 좋을 것 같습니다. 그리고 구축한 데이터셋을 주로 사용하게 될 개발자들에게 편리한 환경으로 제공하면 데이터의 사용이 보다 활성화될 수 있지 않을까 생각합니다.

예를 들어, 현재는 기본 코드와 모델을 AI허브 홈페이지에서 파일 다운로드 형태로 제공하고 있는데 개발자들이 널리 사용하는 깃허브(github) 같은 환경을 사용하고 공개하여 관리한다면 통계를 내기도 용이하고 이것을 활용하는 개발자들이 직접 코드를 개발하거나 개선하여 오픈소스로 공유하는 등 자연스럽게 국내 AI 생태계 안에서 널리 쓰이고 진화할 수 있지 않을까 합니다.

또한, 현재 데이터셋을 다운로드할 때 리눅스(Linux) 환경이 안되는 것으로 알고 있는데 이 부분도 가능하게 열어준다거나 클라우드와 바로 연결하여 쓸 수 있게 한다면 특히, 스타트업에서 사용하는데 편의성이 더 좋아질 것으로 생각합니다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지