[AI 칼럼] 자연어처리(NLP) 기술의 상용화와 그에 따르는 과제
[AI 칼럼] 자연어처리(NLP) 기술의 상용화와 그에 따르는 과제
  • 특허법인 RPM 신인모 대표 변리사
  • 승인 2020.10.14 08:45
  • 댓글 0
이 기사를 공유합니다

‘언어이해 기술’은 텍스트를 인지하고, 그 의미를 이해할 뿐 아니라 문서 등 방대한 텍스트가 포함된 데이터로부터 정보를 추출하고, 분류하며, 나아가 직접 텍스트를 생성하는 기술로서, 자연어처리(NLP)로 대표되나 조금 더 포괄적으로 ‘언어처리’ 기술이라 하겠다. 연구 단계에서 기술을 개발하는 것과, 이를 상용화하는 것은 전혀 다른 문제라고 해도 과언이 아닐 것이다.
신인모 변리사
특허법인 RPM 신인모 대표 변리사

필자, 신인모 변리사는 서울대학교 공과대학 전기·정보학부를 마치고 리앤목 특허법인에서 변리사를 시작으로 현재, 특허법인 RPM 대표 변리사, 동국대학교 공과대학 지식재산학과 겸임교수로 재임하고 있다. 특히, 그는 스타트업 전문 액셀러레이터 ‘매쉬업엔젤스’심사역으로 그리고 다양한 산업분야에 있는 인공지능(AI) 기업의 특허출원 및 컨설팅 업무를 장기간 수행해온 국내외 AI 분야 대표적인 전문 변리사로 활동하고 있다.(편집자 주)

인공지능(AI) 기술이 가장 빠르게 발전하고, 적극적으로 상용화되고 있는 분야를 말하자면 ‘시각이해 기술’과 ‘언어이해 기술’ 이 빠지지 않을 것이다. ‘시각이해 기술’은 이미지나 영상을 분석하고 그 안에 포함된 객체를 인식하거나, 나아가 그 속성을 분석하고 이미지에 포함된 정보를 추출하는 기술로서, 이하에서는 편의상 ‘영상분석’ 기술이라 하겠다.

‘언어이해 기술’은 텍스트를 인지하고, 그 의미를 이해할 뿐 아니라 문서 등 방대한 텍스트가 포함된 데이터로부터 정보를 추출하고, 분류하며, 나아가 직접 텍스트를 생성하는 기술로서, 자연어처리(NLP)로 대표되나 조금 더 포괄적으로 ‘언어처리’ 기술이라 하겠다.

연구 단계에서 기술을 개발하는 것과, 이를 상용화하는 것은 전혀 다른 문제라고 해도 과언이 아닐 것이다. 최근까지 수많은 인공지능 기술들이 개발되고 있지만, 정확성과 완성도, 안정성 등의 문제로 실제로 상용화된 기술들은 적은 편이다. 상대적으로 영상분석 기술의 경우 분야에 따라 사람과 비슷하거나 사람을 뛰어넘는 성능을 안정적으로 보이면서 가장 적극적으로 상용화되고 있으며, 언어처리 기술이 그 뒤를 잇고 있다.

2019년 특허청에서 발표한 ‘4차 산업기술(인공지능) 특허분쟁 대응전략’ 자료에 따르면, 미국 내에서 인공지능 특허와 관련하여 발생한 분쟁들 중 그 빈도가 가장 높은 기술분야는 ‘시각이해 기술’이었으며, 그 다음이 ‘언어이해 기술’이었다. 특허분쟁은 해당 분야의 시장이 충분히 성숙하여, 소송에 따른 이익을 충분히 얻을 수 있을 때 진행되는 것이 일반적이므로, 특허 분쟁의 발생빈도는 해당 시장의 성숙도를 나타내는 지표가 될 수 있다.

다만 인공지능 기술분야 전체의 시장규모가 최근에 급성장하기 시작한 바 조사된 전체 분쟁건수는 아직 적은 편이며, 이 또한 앞으로 지속적으로 증가할 것으로 예상된다.

영상분석 기술이 다양한 분야에서 적극적으로 상용화되고 있는 데 반해, 언어처리 기술의 경우 그 가능성에 비해 상대적으로 제한된 분야에서만 상용화되고 있었다. 특히 자연어처리 기술 중 직접 언어를 생성하여 사용자에게 제공해야 하는 분야의 경우 완성도가 다소 부족하여, 아직은 실험이나 흥미 수준을 넘어서기 어려운 상황이었다.

특히, 자연어처리 기술의 응용분야 중 하나로 몇 해 전부터 챗봇이 각광받고 있으며 여러 분야에서 적극적으로 도입되고 있으나, 현재 상용화된 챗봇은 대부분 사용자에게 기 설정된 질문에 대한 선택지를 제공하고, 이에 대하여 응답하는 방식을 취하고 있어 진정한 의미의 챗봇이라 하기에는 부족함이 있다.

다만 자연어처리 기술을 이용하여 자유로운 일상대화가 가능한 챗봇기술을 상용화하고자 하는 시도는 다양하게 진행되고 있으며, 예를 들어 국내에서는 매쉬업엔젤스 포트폴리오사인 스캐터랩에서 페이스북 메신저를 이용하여 “이루다” 챗봇 베타서비스를 진행하고 있다.

하지만, 일상 대화를 넘어 CS서비스와 같이 정확한 정보제공 및 응대가 필요한 분야의 완전한 자동화 및 상용화에는 아직 조금 더 시간이 필요할 것으로 보인다. 이러한 분야에서는 작은 실수나 오류가 큰 문제를 야기할 수 있기 때문이다. 또한, 리걸테크와 같이 전문용어가 많이 사용됨은 물론 문장 자체의 완성도를 넘어 특정한 규칙을 지켜야 하거나, 문장의 의미가 다양하게 해석될 수 있는 분야의 경우 더 많은 과제를 해결해야 할 것이다.

법률분야는 그 특성상 수많은 텍스트를 분석하고 이로부터 통찰을 도출해내야 하며, 많은 문서작업을 요구하기 때문에 언어처리 기술의 적용가능성이 무궁무진하다. 이에 따라 많은 리걸테크 기업들이 등장하여, 법률서비스 종사자 혹은 법률 소비자를 위한 서비스를 제공하고자 노력하고 있다.

예를 들어, 판례와 법률 등을 분석하여 사용자의 질문에 대한 법적 판단을 제공하는 ‘인공지능 변호사’ 로스(ROSS)가 수년 전 미국에서 실무에 도입되었다고 하며, 국내에서도 변호사의 업무를 보조하는 인공지능 서비스 도입사례가 등장하고 있다.

다만, 자료분석을 넘어 직접 문서를 작성하기까지는 아직 넘어야 할 산들이 많아 보이며, 문서 작성에 대해서는 보조적 서비스로도 상용화되기에는 아직 여러 문제점들이 존재한다. 완벽한 문서작성이 불가능하다면 반드시 법률 전문가의 검수 및 수정이 수반되어야 하는데, 경우에 따라 이러한 검수과정이 오히려 더 번거로울 수 있다.

최근에는 국내에서도 계약서나 소장 등 법률문서를 자동으로 작성하는 서비스를 제공하고자 하는 리걸테크 스타트업을 종종 만나볼 수 있고, 때로는 이러한 기업의 투자검토를 하게 되기도 하는데, 아쉽게도 아직은 이러한 문제점에 대한 해답을 만나지 못했다.

법률문서와 기술문서 양쪽의 속성을 모두 가지고 있는 특허문서를 분석하고, 작성하는 데에도 언어처리 기술을 적용하고자 하는 시도가 있다. 특허문서의 조사분석에는 인공지능 기술이 일부 적용되고 있으며, 아직 완전하지는 못하지만 특허 조사분석의 효율을 높이는 데 일조하고 있다. 다만, 조사분석에서 나아가 특허 명세서를 작성하는 분야에는 언어처리 기술을 적용하기에 아직 많은 어려움이 있다.

특허 명세서에는 특유의 문법이 존재하며, 특허법 제42조를 위반하지 않도록 작성되어야 하는 과제가 있다. 또한, 실재하는 제품이나 기술을 언어로 변환하여 표현해야 하기에 문서 생성을 위한 인풋을 어떻게 제공해야 할지도 숙제가 될 것이다. 인공지능 기술을 이용한 특허 명세서의 작성에 대해서는 다음 기회에 더 구체적으로 이야기해볼 수 있도록 하겠다.

지금까지 언어처리 기술 상용화의 어려움에 대해 주로 이야기하였지만, 최근 GPT-3로 인해 촉발된 관심과, 언어처리 기술의 급속한 성장으로 다양한 분야에서 예상보다 빠른 상용화가 가능할 수도 있다. OpenAI는 GPT-2 모델을 기반으로 파이썬 코드를 자동으로 작성하는 모델을 공개한 바 있으며, GPT-3가 공개된 후 일반 사용자가 이를 이용하여 소스코드를 자동으로 작성할 수 있었다는 이야기도 있다.

GPT-2를 이용하여 특허 청구항을 자동으로 작성하는 방법에 대한 흥미로운 논문도 찾아볼 수 있었다. 네이버에서는 한국어와 일본어에 특화된 대규모 자연어처리 모델을 구축하겠다는 계획을 발표했다. 지금까지 인공지능 기술은 기존에 알려진 어려움들을 뛰어넘는 놀라운 성과들을 여러 차례 보여왔다. 필자의 부족한 상상력을 뛰어넘는 훌륭한 기술이 개발되고, 상용화되는 모습을 빠른 시일 내에 만나볼 수 있기를 진심으로 기대한다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.