인간의 질의 의도를 이해하고 '단 하나의 정답'만을 도출하는 ‘앤서링 AI’는 무엇인가?... 포티투마루 김동환 대표에 듣는다!

“기존의 검색은 검색어를 입력하면 내가 원하는 답을 주는 게 아니고 그 답을 가지고 있는 문서를 그냥 리스트업 해주는 수준이고 사람이 직접 문서 안에서 찾아봐야 되는 그런 시스템인데, 저희가 추구하는 것은 AI 기반으로 질문이 들어오면 정답을 바로 알려주는 것이 핵심”...

인공지능은 언어학적 지식 없이도 상당한 수준의 자연어처리(NLP) 역량을 보여주고 있지만, 지금까지 대화형 언어 인공지능(AI)에 대한 기존의 공개 연구는 통제된 환경에서 주석자와의 인간 모델 대화에 초점을 맞추고 있다.

AI 언어 인공지능 모델은 인간처럼 우리를 이해하고, 참여하며, 대화할 수 있는 진정한 지능형 AI 시스템과는 아직 거리가 있지만, 실제 환경에 더 적응할 수 있는 모델을 구축하기 위해서 AI는 사람들과 함께 보다 다양하고 광범위한 시각과 언어학적 기반과 조화로 수행되어야 하는 새로운 연구가 지속적으로 이어지고 있다.

이에 본지는 인간(사용자)의 질의 의도를 의미적으로 이해하고 방대한 비정형 데이터에서 '단 하나의 정답' 만을 도출해내는 딥 시맨틱 QA(Question Answering) 플랫폼을 개발·서비스하는 인공지능 기술 기반 ‘앤서링 AI(Answering AI)’ 스타트업 포티투마루 김동환 대표를 만났다.

인터뷰는 KAIST 전산학 박사로 전 세종대 교수이자 ICT 전문가로 현재, 인공지능 데이터 사업의 기획을 위한 총괄위원회 위원 및 다양한 AI위원회의 위원으로 활동 중인 한상기 박사가 진행하고 정한영 기자가 정리했다.(편집자 주)

포티투마루(42Maru)는 SK에서 검색사업본부장을 역임한 김동환 대표를 비롯하여 검색 포털과 국내·외 대기업 출신들이 중심이 된 검색 전문가 그룹으로 이미, 2018년 스탠포드대학교에서 주관하는 SQuAD 2.0에서 구글 AI 팀과 공동 1위를 차지함으로써 그 기술력을 인정받고 있다.

2019년에는 세계 최고 권위 자연어처리 학회인 EMNLP-IJCNLP에서 열린 MRQA(Machine Reading for Question Answering) 워크숍에 초대되어 적대적 학습을 이용한 도메인 비종속적 QA 모델을 소개한 바 있다.

특히, 컴퓨터 언어학과 NLP분야의 세계 최고 권위의 학회인 ACL 2020(Association for Computational Linguistics)에서 이전 VAE(Variational AutoEncoder) 방식으로는 불가능했던 단일 문맥 상 다양한 잠재변수를 샘플링하여 질의-응답을 생성하고, 질문과 답변 간의 공통 정보를 극대화함으로써 답변과 맥락에 의미론적으로 관련이 있고 답변이 가능한 질문을 생성할 수 있는 ‘다양하고 일관성 있는 문맥 기반 질의응답 생성을 위한 상호정보량 극대화 계층적 HCVAE(Hierarchical Conditional Variational AutoEncoder)’ 연구 논문으로 전 세계 연구자들에 주목을 받기도 했다.

현재, 포티투마루는 딥러닝 기계 독해(MRC)와 TA(Text Analytics) 기술을 바탕으로 시맨틱 KMS(기업용 지식검색시스템), DX(Digital Transformation) 및 인공지능 기반 챗봇 등의 분야에서 비즈니스 이슈와 원인을 파악하고 잠재적인 리스크 요소를 사전 감지하는 SaaS 기반의 엔터프라이즈 BA(Business Analytics) 플랫폼을 제공하고 자연어처리(NLP) 기술이 적용된 언어지능 플랫폼인 앤서링 AI와 QA42, TA42, CHAT42, NL42, Search42, 텍스탠딩 등 다양한 언어지능 솔루션을 개발, 서비스하고 있다.

Q . 먼저, 회사 명 '포티투마루(42Maru)'에 대한 설명을...

A . "42"은 더글러스 애덤스(Douglas Adams)의 ‘은하수를 여행하는 히치하이커(Hitchhiker)를 위한 안내서’에 수없이 나오는 그 42를 뜻하며, "마루"는 우리나라 순 우리 말로 이제 최고 이런 뜻이니까 저희가 QA 영역에서 최고가 되자는 의미입니다.

Q . 포티투마루는 크게 비전을 Answering AI, 또한 엔터프라이즈 AI를 추구한다고 하는데 설명을...

A . 지금 저희가 하는 게 인공지능 기반으로 언어 처리하고 텍스트 분석 인공지능 기반으로 인공지능 기반의 검색이라고도 할 수 있는데 기존의 검색은 검색어를 입력하면 내가 원하는 답을 주는 게 아니고 그 답을 가지고 있는 문서를 그냥 리스트업 해주는 수준이고 사람이 직접 문서 안에서 찾아봐야 되는 그런 시스템인데, 저희가 추구하는 것은 AI 기반으로 질문이 들어오면 정답을 바로 알려주는 것을 말합니다.

Q . 구글 방식과 구글의 Knowledge Graph를 비교 하신다면...

A . 지금 구글도 조금 섞여 있긴 합니다. AI 기반도 있고 기존에 룰베이스로 수작업 의존해서 답을 만들어 보여주는 형식들이 있는데요. 좀 더 확장해서 보면 온톨로지 방식이라고 할 수 있는데 결국은 사람이 수작업을 하기 때문에 데이터가 새로 들어오거나 또는 업데이트되는 부분들을 계속 팔로업을 해야 합니다.

아울러, Knowledge Graph 자체를 수작업 위주로 만들다 보니까 현실적으로 상용화 서비스하는 게 데이터도 계속 증가하고 있고 계속 업데이트 되는데 이를 자동으로 하는 게 상당히 제한적이거든요. 저희는 MRC라고 하는 기계 독해, Machine Reading & Comprehension인데 사실 인공지능 독해거든요. 인공지능이 이제 독해를 해서 답을 찾아내는 방식을 통해서 자동으로 질문에 대해서 대답을 하는 그런 방향을 추구합니다.

Q . 질의어에 대한 분석은 어떻게 하시는지?

A . 이전에는 질의어를 위한 형태소 분석하려면 사전을 구축해야 되고 문법에서 Rule 세팅해야 되고 NER (Named-Entity Recognition) 태깅도 사전에 의존해서 했었는데 그런 부분들을 다 딥러닝 기반으로 처리를 하고 있습니다. 의도 분류도 마찬가지 입니다.

Q . '딥 시맨틱 QA(Question Answering)'에 대한 설명을...

Deep Semantic QA는 딥러닝 기반으로 QA를 하는 거고 semantic을 붙인 이유는 이전의 키워드 매칭이나 유의어 사전 기반이 아닌 AI 기반으로 해서 의미 분석을 자동으로 하는 방안입니다. 저희는 표현이 다르더라도 같은 의미를 가진 것을 찾아내는 패러프레이징을 쓰고 있거든요. 예를 들어, 문서는 문어체로 되어 있고, 사람들이 질문은 구어체로 할 때 앞단에서 일종의 semantic transformation을 해서 MRC를 하게 되면 커버리지가 더 넓어지는 부분도 있고요

Q . 국내에 자연어 기반 또는 음성 기반의 MRC, 챗봇 서비스에 관련된 기업이 많아졌는데 포티투마루의 차별적인 기술력은...

A . 최근에 모델들도 많이 오픈되기도 하고 딥러닝 쪽이 한 10년 정도 됐는데 초반에는 이미지나 동영상 쪽으로 하다가 그쪽이 어느 정도 기술적으로 상향평준화 돼 있고 이러면서 언어 처리 쪽으로도 많이 넘어오고 있긴 한데 저희는 원천 기술 자체도 SQUAD라고 하는 글로벌 대회에서 1등도 했었고, 저희 팀이 가지고 있는 강점은 상용화 부분인 것 같아요.

한 20년 정도 필드에서 저희가 상용화된 포털 대용량 서비스들을 해왔습니다. 예를 들어, 기계독해같은 경우도 질문이 들어오면 관련 문구 내에서 답을 찾는 방식인데 현실 세계에서는 문구가 아니고 질문만 들어오지 않습니까? 그러면 기업 내에서 가지고 있는 엄청난 양의 문서에서 거기에 해당하는 문구를 먼저 찾는 문구 검색 작업이 먼저 이루어져야 되거든요.

이 부분을 해결을 못해서 상용화 못하고 있는 것들이 많이 있거든요. 이래서 MRC가 90점 나왔다 해도 문구 검식이 90점이 나오면 0.9 x 0.9 하면 81 정도 수준. 실제로 국내 대기업 같은 경우도 MRC는 어느 정도 나오는데 상용화하려고 했더니 문구 검색이 안되서 이 부분을 저희한테 공동 R&D를 하자고 하든가 아니면 이제 컨설팅해달라 요청합니다.

특히, 저희가 상용화하면서 경험과 노하우가 있고, 특허도 MRC나 패러프레이징이나 이런 쪽은 다 내는데 문구 검색 쪽은 저희가 특허를 안 내고 있어요. 특허를 내면 공개되니까요

Q . 포티투마루의 Chat42 서비스에 대해서...

A . 기본적으로는 인터페이스 자체가 챗봇이고요. MRC 같은 경우에 기업 내에 적용할 때는 보통 5개 정도 답을 보여줍니다. 한 화면 안에서 원하는 걸 찾을 수 있게. 근데 챗봇 같은 경우는 인터페이스 자체가 즉답 형태로 이렇게 가야 되니까 첫 번째 것만 뽑아내는 방식이고요.

내부적으로 보면은 현재 챗봇 시장 자체가 아직까지 룰 베이스나 시나리오 베이스의 수작업이지 않습니까? 질문 답변은 사람이 다 등록하는 형태로 많이 하고있는 실정인데 저희도 챗봇에 레벨 1, 2, 3이 있는데 레벨 1 같은 경우는 일종의 FAQ 같이 루틴하고 반복적으로 들어오고 답이 변하지 않는 질문에 대해서는 굳이 기계 독해 같은 걸 써서 GPU 장비 쓰고 이럴 필요가 없으니까 그런 것은 룰 베이스로 해서 적용을 합니다.

레벨 2로 가면 패러프레이징 같은 것을 적용해서 조사가 틀리거나 띄어쓰기 틀려도, 단어가 바뀌어서 들어와도 대응이 가능하거든요.

3단계에는 MRC 적용해서 질문이 들어왔을 때 실시간으로 문서에서 답을 찾아서 보여주는 형태로 가고 있고요. 저희가 MRC 같은 경우도 기존에 위치 방식으로 하는 것뿐만 아니고 연산 한다든지 다양하게 분류를 해가고 있거든요. 테이블에 대해서 처리를 한다든지.

Q . 고객과 대응하기 위한 챗봇 서비스들 예를 들어, 콜센터라든가 인공지능 컨택센터(AICC) 같은 시장에서 기능과 역활은...

A . AICC 같은 인프라 전체를 하는 것보다는 거기에 들어가는 QA 엔진을 통해 대기업들과 협업을 합니다. 어떤 경우에는 특정 은행 AICC 프로젝트에 대해 여러 기업들이 QA 엔진은 다 저희 것을 들고 가서 경쟁하기도 합니다.

아울러, 컨택센터에 적용되는 AI Assistant 솔루션, 대화형 챗봇 플랫폼 및 AI OCR 문서 구조화 솔루션인 NL42-Textanding 등 다양한 언어지능 솔루션을 각 산업분야에 실제 적용되어 사용 중에 있습니다.

Q . 국내 챗봇 시장 시장에 대해서 한 말씀해 주신다면...

A . 저희가 볼 때는 국내 챗봇 시장을 긍정적인 부분으로 보자면, 해외보다 상당히 많이 앞서가 있고 챗봇도 많이 도입을 하고 있다고 봅니다. 공급하는 쪽도 이제 거의 토탈 솔루션 형태로 하고 있고 해외를 보면 아직까지 전문화 되어 있는 것 같습니다. 음성 인식만 하는 데들이 있고, 대화 모델만 하는 데들이 있고 또 거기에서 채팅 내용을 요약하는 텍스트 분석 쪽만 따로 하는 것들이 있고 이렇게 통합적으로 하는 쪽은 없는 것 같습니다.

우리나라도 없지는 않지만 주로 각자 자기들이 잘할 수 있는 부분에만 집중해서 하다 보니까 기업체에 적용하려고 하면 여러 업체가 같이 해야 하니까 시작이 느리게 가는 것도 있는 것 같습니다. 반면에 국내는 제공하는 쪽도 토털 솔루션으로 제공을 많이 합니다.

Q . 포티투마루가 가장 많이 활용하고 있는 AI 모델은...

A . 현재는 저희는 ALBERT 쪽을 주로 사용합니다. 나머지들은 좀 무겁죠. 그리고 기업 내는 어차피 또 실제 사실 기업 내에 업무적으로 쓰는 데도 장비에 대한 부담이 들이 있거든요.

그리고 들어보니까 학습시키는 것도 하루에 벤츠를 한 대씩 갈아넣고 올해 예산을 다 써서 그중에서 이제 여러 개 준비하던 것 중에서 일부만 하고 나머지는 그냥 다 홀딩 시켰다. 하더라고요. 지금 학습하는 데도 그러는데 상용화할 때 가면 그만큼 비용을 쓰면서 진짜 뭔가 도움이 돼야 되는데 쉽지 않은 얘기인 것 같습니다.

저는 어차피 구글이나 오픈AI도 마찬가지일 거고 다른 모델들을 만들고 있을 걸로 보고 있어요. 챗봇만 놓고 보더라도 이게 진짜 어디에 쓸 거냐는 아직 시장이 그게 찾아가는 과정이라고 보고 있거든요.

AICC 같은 경우는 그나마 조금 이제 활용 가치나 활용성을 조금 찾은 것 같은데 나머지는 사실 지금 챗봇 도입하는 쪽들을 보면 그 생각을 하거든요. 거기 도입해서 뭐 할 것인지? 그냥 위에 보여주기식 프로젝트들 같고, 그 과정이 몇 년은 걸릴 것 같습니다.

Q . 관점을 바꿔서, 정부에서 AI허브 데이터세트 과제에 포티마루가 자주 참여를 했는데 실제 상용화 서비스와 구축했던 데이터세트의 활용도와 가장 많이 유용하게 사용했던 데이터세트는?

A . 저희는 과제 참여를 많이 했는데 컨소시엄에서 데이터 구축은 안 하고 저희는 이제 모델링 중심으로 그동안 해왔었습니다. 실제로 저희는 거의 다 상용화에 적용을 했습니다.

특히, 저희가 일반 상식 쪽 하면서 이제 위키 데이터로 하고, 저희가 그때는 직접 구축했었거든요. 그 것을 KT 기가지니이라든지 LG 키즈 워치에 상용화까지 했었고요. 이후에도 저희가 전문 분야들 이제 내부에 있는 매뉴얼이나 이런 것들 학습시킨 것들을 다 실제 상용화까지 다 했었어요. NIA 데이터 구축 과제에서 저희는 실제로 필요한 부분들만 참여를 했었거든요.

올해 하는 것도 몇 가지 있는데, 예를 들어 테이블에서 찾아내는 비정형 데이터 중심으로 하는데 실제로 기업 내에 보면은 이렇게 테이블 형태로 정리된 게 있거든요. 지금까지 처리를 못했었는데 올해 하반기 때 그 과제에서 모델링하고 내년에 실제 금융기관이나 이런 쪽에 상용화하려고 하고 있습니다.

Q . 한국형 블렌더 봇(Blender Bot) 데이터세트 구축이 과학기술정보통신부와 NIA가 주관으로 진행되고 있는데 일상 대화를 위한 챗봇에 어떤 문제들이 있다면 우선, 해결해야 될지...

A . 일단은 저는 일상 대화 쪽은 사실 이루다 같은 경우도 이렇게 생성 방식이 아니라 셀렉트 방식이었지 않습니까? 그러다 보니까 개인 정보 이슈도 생기고 했었는데 결국은 생성 모델들이 나와야 되는데 사실 언어 처리에 있어서 생성이 상당히 힘들거든요.

최근 국내 모델과 구글의 람다라든가 그런 모델은 너무 무겁죠. 그래서 저는 일상 대화 쪽은 생성 모델이 들어가야 되는데 베이스 모델부터 새로운 게 나와야 되지 않을까 합니다. 저는 일종의 초거대 AI에 상당히 부정적인 입장이거든요. 지금 방식이 실제 상용하는 데 있어서 비용이 너무 들어가는 것 같습니다.

예를 들어, 실제로 상용화했을 때 그러면 사람들이 일상 대화를 한다고 했을 때 최소한 GPU 장비만큼은 비용을 지불을 해야 되는 거잖아요? 그렇게 사람들이 진짜 그렇게 할 거냐라는 의문이 있습니다.

그리고 지금 우리나라 대기업뿐만 아니라 정부도 초거대 모델 쪽으로 하고 있는데 오히려 베이스 모델을 만드는 데 집중해서 한 20~30년을 보더라도 국가 차원에서 원천 모델을 만드는 데 더 집중해야 하지 않을까 싶습니다. 남들이 하는 거 똑같이 계속 대량으로 학습만 시킬 게 아니라. 이게 사실 모델의 베이스 라인이 바뀌어 버리면 그동안 학습한 것도 다 무용지물이 될 수 있으니까요.

본질적으로 기본 베이스 모델의 어떤 혁신과 변화도 필요하지만 우리가 대화를 할 때 대화의 의미를 파악하지 않으면서 그야말로 단어들 토큰들을 나열하는 방식으로 하는 것이 대화일까요? 저는 담론이나 대화가 그렇게 되진 않는다고 생각하거든요. 대화는 얼굴 표정도 봐야 되고 목소리의 느낌도 봐야 되는 건데 이런 챗봇을 통한 방식은 내가 사용하는 단어의 의미를 저쪽에서 파악하지 못하면 벽에 부딪힐 수 있을 거라고 생각을 해요.

특히, 블렌더봇에서는 페르소나를 구현하기 위한 데이터나 감정을 좀 더 좀 더 예전보다 더 좋게 판단하기 위한 것과 같은 데이터세트 구현이 우선돼야 할 것 같습니다.

Q . 마지막으로 코로나 19 이전, 나이스디앤비 기술평가에서 코스닥 기술특례 상장 조건에 준하는 T3 등급 인증을 받고, 신용보증기금에서 IPO 후보기업으로 선정되기도 하셨는데 언제 IPO 할 계획은...

A . 원래 저희가 시작할 때는 국내 IPO보다는 해외 쪽을 먼저 생각했는데, 코로나 때문에 일단 국내에서 IPO 하는 것으로 선회를 했습니다. 주관사도 한국투자증권과 DB금융투자를 공동주관사로 해서 준비는 하고 있습니다만 다시 고민 중입니다.

해외 시장이 다시 할 수 있는 상황이 되다 보니까 국내 IPO를 서둘러서 할 필요가 있을까 생각 중입니다. 특히, 저희는 엔터프라이즈 시장이고 매출을 만들어 가면서 하고 있다 보니까 캐시 플로우에 문제가 있는 것도 아니고. 그래서 국내 IPO를 조금 늦추고 해외 쪽을 좀 더 레퍼런스를 만들고 가는 게 좋을 수도 있을 것 같습니다.

해외 시장에서는 먼저, 엔지니어링 분야 쪽을 보고 있습니다. 엔지니어링 분야가 개발 스펙 문서라든지 이런 것들이 많이 쌓여 있으니까 저희가 QA뿐만 아니고 텍스트 분석하는 것을 포함하는데, 텍스트 분석도 저희는 주로 이제 리스크 예측 쪽으로 하고 있거든요.

예를 들어, 자금 세탁을 찾는다든지 스펙 문서에서 정합성이 안 맞는 부분을 자동으로 찾아낸다든지 법률 문서에서 독서 조항 같은 거나 누락된 걸 찾는다든지 이런 일에 이제 텍스트 분석을 통해서 미리 잠재돼 있는 리스크를 예측하는 그런 쪽으로 하고 있습니다.

또 금융 쪽도 사실 데이터가 많이 쌓여 있기 때문에 우선순위로 보고 있고요. 실제 저희가 국내의 경우도 엔지니어링 분야나 금융 쪽을 많이 했었습니다. 최근에는 저희 엔진을 계속 다양한 여러 전문 분야로 학습시키면서 확장하고 있습니다. 그래서 헬스케어 쪽이나 법률 분야로 계속 확장하고 있는 상황입니다.

아울러, 국내 시장에서는 아무래도 초기 시장이니까 남들보다 먼저 저희 엔진을 금융도 학습시키고 헬스케어도 학습시키고 법률도 학습시키고 이렇게 해서 씨 뿌리는 작업들을 해왔습니다. 시장이 이제 점점 커지면서는 서드 파티와 제휴를 통해 확장하는 작업은 파트너 사를 통해서 하고자 합니다.

정한영 기자 hyjung@aitimes.kr

다른기사 보기

상단영역

본문영역

인간의 질의 의도를 이해하고 '단 하나의 정답'만을 도출하는 ‘앤서링 AI’는 무엇인가?... 포티투마루 김동환 대표에 듣는다!

기사 댓글 0

비회원 로그인