[스페셜리포트] 자연언어처리(NLP) 무엇인가... 그 기술과 시장은?
[스페셜리포트] 자연언어처리(NLP) 무엇인가... 그 기술과 시장은?
  • 최창현 기자
  • 승인 2020.01.02 05:20
  • 댓글 0
이 기사를 공유합니다

2019년 11.8조원 규모서 2024년 30.5조원으로 연평균 21.0 % 성장

자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.

1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 기반 및 통계적 자연어 처리 기법이 주류를 이뤘다. 하지만 최근에는 딥러닝과 딥러닝기반의 자연어처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행되고 있다.

NLP 기술은 기계번역, 대화체 질의응답 시스템 대화시스템, 정보검색, 말뭉치 구축, 시맨틱웹, 텍, 딥러닝, 그리고 빅데이터 분석 분야뿐만 아니라 인간의 언어정보처리 원리와 이해를 위한 언어학과 뇌인지 언어정보처리 분야까지 핵심적인 요소로 작용하고 있다.

특히 2018년 구글이 공개한 BERT(버트)는 종래보다 우수한 성능을 발휘한다. BERT는 자연언어 처리 태스크를 교육 없이 양방향으로 사전 학습하는 첫 시스템이기 때문이다. '교육 없음'이란 BERT가 보통의 텍스트 말뭉치만을 이용해 훈련되고 있다는 것을 의미한다. 이것은 웹(Web) 상에서 막대한 양의 보통 텍스트 데이터가 여러 언어로 이용 가능하기 때문에 중요한 특징으로 꼽는다. (본지 보도 참조: 인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가?)

구글 버트 이미지(본지DB)
구글 버트 이미지(본지DB)

또한 NLP에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다. 자연어 분석은 그 정도에 따라 형태소 분석(morphological analysis), 구문 분석(syntactic analysis), 하나로써 문장의 의미에 기저(基底)하여 그 문장을 해석하는 시멘틱 분석(semantic analysis)과 문장이 실제로 무슨 의미를 내포하는지 결정하는 실용 분석(pragmatic analysis) 등으로 크게 나누어 구분할 수 있다.

최근 NLP 솔루션은 전 산업에서 활용돼 혁신을 가속하고 있다. 특히 은행, 금융 서비스 및 보험 등에서는 고객을 유지하고 비용을 절감하며, 수익을 높이고 변화하는 규칙과 규정 등을 준수해야 한다. 이에 솔루션은 기업의 정보 검색, 의도 분석, 고객 서비스 등과 규정 준수 프로세스 자동화 및 응용 프로그램을 효율적으로 수행하고 그에 따르는 위험을 완화하도록 돕고 있다.

또 NLP 솔루션을 사용해 프로세스를 자동화하면 은행, 금융 서비스 및 보험 등의 기업은 생산성을 향상시키는 데 도움이 될 뿐만 아니라 해석 프로세스의 오류 발생 가능성을 현저히 낮추고 회사가 구조화되고 구조화되지 않은 데이터를 처리하는 방식을 최적화 한다.

이 시장 또한 치열하다. 지난달 30일(현지시간) 발표된 리서치앤마켓의 보고서에 따르면 2019년 102억 달러(약 11조8천억원)에서 2024년 264억 달러(약 30조5천억원) 시장으로 예측 기간 동안 21.0 %의 CAGR로 성장한다고 예상했다.

이 시장의 주요 성장 요인으로는 스마트 기기 사용 증가와 클라우드 기반 솔루션 채택 증가, 고객 서비스 개선을 위한 NPL 기반 애플리케이션의 증가, 의료 산업에 대한 기술 투자 증가 등을 꼽았다.

사진:본지DB

그럼 NLP 시장은 어떻게 구성되는지 살펴보자.

우선, 구성 요소별로 솔루션과 서비스로 분류된다. 서비스를 통해 조직은 전문적이고 관리되는 건강한 소비자 관계를 유지할 수 있다. 또 이러한 서비스는 기업이 자원 사용을 최대화하고 활동을 효과적으로 실행해 비즈니스 운영을 향상시키는 데 도움을 준다.

또 솔루션은 유형, 배포 모드 등으로 분류된다. 업종별 NLP 시장은 은행, 금융 서비스 및 보험, 소매 및 전자 상거래, 제조, 의료 및 생명 과학, 정부 및 국방, 미디어 및 엔터테인먼트, IT 및 통신, 여행, 연구, 교육, 에너지 및 유틸리티 등으로 구분된다.

컴포넌트 세그먼트는 솔루션과 서비스로 구성되며, 솔루션은 소프트웨어 도구와 플랫폼으로 구분되지만 서비스는 관리 서비스와 전문 서비스(지원 및 유지 관리, 컨설팅, 배포 및 통합)로 구분된다.

배포 모드 별 NLP 시장은 클라우드 및 온-프레미스로 조직 규모에 따라 시장은 대기업과 중소기업으로, 응용 프로그램 별 NLP 시장은 기계 번역, 정보 추출, 자동 요약, 질문 답변, 텍스트 분류, 감정 분석 및 기타(스팸 인식 및 언어 감지 등)로 분류된다.

이처럼 NLP 솔루션의 채택이 증가함에 따라 지원 및 유지 보수와 같은 새로운 서비스의 필요성도 증가할 것으로 예상된다. 또 NLP의 진화는 기업과 소비자 모두에게 여러모로 중요한 영향을 미칠 것이며, 인간 언어의 의미와 뉘앙스를 이해할 수 있는 알고리즘으로 진화하면서 의료 산업이나 법률, 교육계 등 다양한 분야에서 어떤 파급 효과를 가져올 것인지 상상이 가능해진다.

한국어 언어모델 ‘코버트(KorBERT)’ 이미지(사진:ETRI)

그럼 국내 시장 상황은 어떤가. 시장을 말하기 보다는 국내 NLP 배경을 살펴보자.

특히 시장과 NLP 응용 솔루션에 기반이 되는 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료 ‘말뭉치(말모둠, 글모둠)’는 양이 클수록 AI가 인식(이해)할 수 있는 자연어의 정확도가 높아지며, AI가 얼마나 많이 학습하느냐에 그 성능을 좌우한다.

이에 따라 각국은 국가 경쟁력 차원에서 사업을 추진하고 있으며, 일본의 경우 150억 어절, 중국은 300~800억 어절, 미국은 300억 어절을 구축, 응용 솔루션이나 AI 개발에 힘쓰고 있다.

이에 반해 우리는 주요 경쟁국에 비해 1%도 채 안되는 실정이다.

국내에서는 지난 1998년부터 정부가 ‘21세기 세종계획’을 통해 ‘세종 말뭉치’를 구축해왔다. 하지만 2007년 이후로 사업이 중단돼 있다. 이런 상태에서 정부도 자연어처리 등 AI의 핵심기술 개발을 위한 국어 자료 구축이 필요하다고 판단해 2017년을 시작으로 지난해 국립국어원 예산 중 말뭉치 구축만을 위한 예산 204억원을 별도로 책정해 10억 어절을 말뭉치로 구축하는 사업을 진행하고 있다.

이를 관련 기술 개발 등을 추진하는 기관이나 기업 등에 제공한다. 오는 2022년까지 150억 어절 규모의 말뭉치를 구축하는 것이 목표이다. 꼭 10년 만에 정부 주도의 말뭉치 구축 사업을 재개하는 셈이다.

지난해 6월 과기정통부의 소프트웨어 분야의 국가 혁신기술 개발형 연구개발 과제인 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 공개했다. 공개한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 ‘교착어’ 특성까지 반영해 만든 언어모델이다.

공공인공지능 오픈 API‧데이터 서비스 포털 메인 화면 캡처

이 기술은 지난해 3월 한컴오피스 지식검색 베타버전에 탑재되기도 했다.

또 언어처리를 위한 딥러닝 기술을 개발하기 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다. 이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 버트(BERT)를 사용했다.

버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 이 방식은 2017년 11월 처음 공개되었을 때 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.

그동안 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발해 왔다. ETRI 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

하지만 구글과 ETRI의 언어모델 개발에 활용한 BERT 방식은 현재, 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다.

또한 단순히 입력한 데이터양만을 늘리는 것은 언어모델 고도화에 한계가 있다. 아울러, 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어로 한국어의 의미 최소 단위인 형태소까지 고려해 한국어특성을 최대한 반영한 언어모델을 만드는데 심혈을 기울였다.

특히 ETRI는 한국어에 최적화된 언어모델이 '전처리 과정에서 형태소를 분석한 언어모델', '한국어에 최적화된 학습 파라미터', '방대한 데이터 기반' 등이 구글과 차별성 있는 것이 특징이다.

개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수했다고 한다. 특히, 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.

아울러 지난해 6월 공개된 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이루어지고 있다. 개발된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며, 공공인공지능 오픈 API‧데이터 서비스 포털(바로가기)에서 쉽게 찾아볼 수 있다.

카카오 khaiii 깃허브 화면 캡처 및 편집
카카오 khaiii 깃허브 화면 캡처 및 편집

카카오는 2018년 말부터 딥러닝 기반 형태소(形態素, morpheme) 분석기 '카이(khaiii)'를 오픈소스로 제공하고 있다. 딥러닝을 통해 학습한 데이터를 활용해 형태소를 분석하는 모델이다. 딥러닝 기술 중 하나인 콘볼루션 신경망(CNN, Convolutional Neural Network)을 이용해 음절기반으로 형태소를 분석하는 방법을 채택했다.

세종 코퍼스를 기반으로 데이터의 오류를 수정하고 카카오에서 자체 구축한 데이터를 추가해 85만 문장, 1003만 어절의 데이터를 학습하여 정확도를 높였다. 또 딥러닝 과정에서 C++ 언어를 적용해 일반적으로 딥러닝에 쓰이는 GPU(그래픽처리장치)를 사용하지 않고도 빠른 분석 속도를 구현했다.

형태소 분석 기술은 2개 이상의 글자로 이루어진 단어 혹은 문장을 입력 시, 의미를 가진 언어 단위 중 가장 작은 단위인 형태소 단위로 자동으로 분리하는 기술이다. 예를 들면, '학교에 간다'라고 입력하면 '학교/명사 + 에/조사 + 가/동사 + ㄴ다/어미' 로 형태소 단위와 품사를 파악해 분류해내는 기술이다.

깃허브(GitHub)에서 확인할 수 있으며, 누구나 무료로 이용 가능하며(깃허브 바로가기), 주로 자연어처리 응용 서비스의 기반 기술로 사용되며, 정보 검색, 기계 번역, 스마트 스피커나 챗봇 등 여러 서비스에서 사용할 수 있다. 

네이버는 업계에서 가장 먼저 선도적으로 NLP의 중요성을 인식하고 개발과 투자로 축적한 기술력과 서비스 노하우를 바탕으로 네이버 검색이 자연어 처리 분야에서 검색 이용자의 의도를 더욱 잘 이해하는 검색으로 진화하고 있다. 

HCLT 행사 이미지 및 본지편집
HCLT 행사 이미지 및 본지편집

또 모바일 상에서의 검색이 일상화된 이용자들을 위해 AI 기술 기반 검색어 교정 시스템인 ‘AIQSpell’ 개발에 힘써왔다. 딥러닝을 비롯한 최신의 AI 기술을 활용해 기존의 검색어 교정 시스템을 대체했으며, 최근 이에 대한 유의미한 성과가 나타나고 있다.

먼저, 오타 질의들에 대한 검색어 교정량이 43% 증가했다. 예를 들어 ‘목포에세 군산깢 가는버’라고 검색을 했을 때 ‘목포에서 군산까지 가는 법’으로 교정하거나, ‘꿰양성 대장염치료제는 업는지’를 검색하면 ‘궤양성 대장염 치료제는 없는지’로 자동 변환하여 제공하는 방식으로, 비교적 긴 질의에서 발생하는 오타를 알맞은 검색어로 교정하는 비율이 대폭 증가했다.

특히 맞춤법 오류나 오타 등으로 인해 검색결과가 0건으로 나타나는 ‘검색결과 0건 질의’ 역시 크게 감소했다. 이와 함께 최신 AI 기술의 적용으로 자동완성 서비스 역시 대폭 개선되었다. 지난해 9월 개편된 네이버 자동완성에는 빅데이터 분석기술을 활용한 시스템이 도입되었다.

해당 모델은 오타가 발생했을 가능성, 순서가 뒤집혔을 가능성, 그리고 사용자가 많이 찾는 검색어일 가능성 등을 조합해 추천 검색어 후보들의 최종 점수를 계산하여 적절한 검색어를 제공한다.

이를 통해 이용자는 단어 순서를 바꾸어 입력해도, 구체적인 검색어가 기억나지 않더라도 기존에 비해 적은 타이핑으로 더욱 정확한 검색 결과를 얻을 수 있다. 

또 NLP 연구 성과에서도 지난해 11월 3일에서 7일까지 5일간 홍콩에서 진행된 세계 최고 권위의 자연어처리 분야 학회(EMNLP-IJCNLP 2019)에서 네이버는 주요 성과를 공개했다. 다국어 읽기 이해도를 위한 제한된 데이터 학습으로 충분한 학습데이터가 존재하지 않는 언어에 대해 기계번역 및 자동 레이블링을 통해 데이터를 자동으로 구축하는 방법 등을 소개했다.

또 DB 정보가 불명확한 상황에서도 적용가능한 자연질의-SQL 변환 방법을 제안하는 '부족한 자연어 질문에서 의사 SQL 쿼리 생성', 보다 다양한 문장 생성을 위한 모델을 제시하는 '다양한 생성을 위한 혼합 콘텐츠 선택', 사용자 질의 자동완성 품질을 향상시키는 방법을 제시하는 '쿼리 자동 완성을 위한 하위 단어 언어 모델' 등을 발표하기도 했다.

김동환 포티투마루 대표(왼쪽)가 지난달 20일 '2019년 글로벌 SaaS 육성 프로젝트 성과공유회’에서 과기정통부 장관상을 수상하고 기념 촬영 하고 있다(사진:본지DB)
김동환 포티투마루 대표(왼쪽)가 지난달 20일 '2019년 글로벌 SaaS 육성 프로젝트 성과공유회’에서 과기정통부 장관상을 수상하고 기념 촬영(사진:본지DB)

이와는 별도로 컴퓨터가 사람처럼 주어진 문서를 읽고 이해한 후 질문에 대한 정답을 찾아내는 MRC 테스트의 하나로 구글, MS, 페이스북, IBM, 앨런 AI연구소, 카네기 멜론 대학 등 글로벌 IT 기업과 유수의 연구소가 막대한 자금을 투자하며 연구 중인 'SQuAD(The Stanford Question Answering Dataset)' 분야에 국내 딥러닝 기반 QA(Question Answering) 검색 기술을 개발하는 AI 스타트업 포티투마루(대표 김동환)가 지난해 스탠퍼드 대학(Leland Stanford Junior University)에서 주관하는 세계 최대의 기계 독해 경진대회인 SQuAD 2.0에서 스타트업으로는 전 세계 최초로 3위를 기록해 큰 주목을 받기도 했다.

지난해 9월 LG CNS는 국내 처음이자 유일하게 AI의 연어 이해를 위한 AI 학습용 표준데이터 ‘코쿼드 2.0(KorQuAD 2.0)’를 공개하고 국내 AI 업계에 무료로 개방했다. ‘코쿼드 2.0’은 한국어 표준데이터를 7만개에서 10만개로 확대하고 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이다.

예를 들어, “대한민국의 수도와 그 면적은?” 이라는 질문에 “서울특별시, 605.25km2 입니다” 라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발 가능했다. 하지만 “서울특별시의 특징은?” 이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…” 이라는 장문의 답을 이제, 코쿼드 2.0으로 학습을 통해 가능해진 것이다.

사진은 코쿼드 웹사이트 캡처
사진은 코쿼드 웹사이트 캡처

특히 한국어 표준데이터 코쿼드 2.0은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다. 정보 4만건과 질의응답 세트 10만건으로 구성되어 있다. 10만건의 질의응답 세트 중 약 9만건은 AI 학습용으로 사용되고, 1만건은 개발된 AI의 성능 평가용으로 사용된다.

아울러 코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능 평가를 받을 수 있으며 리더보드에 등재돼 다른 AI와의 성능 수준을 비교해볼 수도 있다. 성능 평가 결과는 EM(실제 정답과 정확하게 일치하는 비율)과 F1(정답과 유사한 답변을 내놓는 비율) 점수로 나타난다, 사람은 평균 EM(80.17점), F1(91.20점)을 기록한다.

현재 리더보드 1위인 네이버가 코쿼드를 사용해 개발한 AI의경우 EM(86.84점), F1(94.75점)을 기록 중이며, 이는 사람보다 높은 답변 수준임을 나타내고 있는 것이다. 한편, AI의 연어 이해를 위한 AI 학습용 표준데이터는 코쿼드 웹사이트(바로가기)에서 다운로드 받을 수 있으며 누구나 활용 가능하다.

한편, 가장 최근의 글로벌 NLP 솔루션에서는 최첨단 AI 언어모델 중 하나인 구글 버트(BERT)를 한 시간 내에 훈련시키고, 2밀리초(ms) 만에 AI 인퍼런스를 완료한 최초의 모델로 실시간 대화형 인공지능(AI)을 통해 기업이 고객과 보다 자연스럽게 소통할 수 있는 엔비디아 '언어 이해 모델'을 꼽을 수 있다.

대화형 AI 서비스는 몇 년 동안 제한적으로 존재해왔다. 현재까지 방대한 AI 모델을 배치하는 것이 불가능해 챗봇, 지능형 개인 비서, 검색 엔진 서비스가 인간 수준의 이해력 갖춘 채로 작동되기는 매우 어려웠던 것이 사실이다. 엔비디아는 AI 플랫폼에 핵심 최적화 기능을 추가해 이러한 문제를 해결했으며, AI 훈련과 인퍼런스를 기록적인 속도로 수행하고 현재까지 가장 방대한 언어 모델을 구축한 것이다.

이 획기적인 성능 수준을 통해 개발자는 전세계 수억 명의 소비자가 사용할 수 있는 대규모 애플리케이션용 최신 언어 이해 기능을 사용할 수 있다.

마이크로소프트(Microsoft)와 세계에서 가장 혁신적인 몇몇 스타트업을 포함한 기업들은 초기부터 엔비디아를 채택해 그 성능 향상을 확인했다. 이들은 엔비디아 플랫폼을 활용해 자사의 고객을 위해 매우 직관적이고 즉각적인 반응형 언어 기반 서비스를 개발하고 있다.

또 개발자들이 대화형 AI에서 이러한 혁신을 달성하는 데 필요한 소프트웨어를 최적화했다. 주요 플랫폼으로는 파이토치(PyTorch)를 사용한 BERT 트레이닝 코드(깃허브 다운), NCC모델 스크립트 및 텐서플로우(TensorFlow)용 체크포인트, 텐서RT 최적화 BERT 샘플, 더 빠른 트랜스포머(Transformer): C++ API 텐서RT 플러그인 및 텐서플로우 OP, BERT 훈련 및 인퍼런스 용 AMP를 지원하는 MXNet 글루온-NLP(Gluon-NLP), AI Hub의 텐서RT 최적화 BERT 쥬피터(Jupyter) 노트북, 대규모 트렌스포머 모델 훈련을 위한 파이토치 코드, 엔비디아 BERT 추론은 허깅 페이스(Hugging Face), 텐서RT와 BERT를 통한 실시간 자연어 이해 등이 있다.

ERNIE 2.0 모델 개요(출처:바이두)
ERNIE 2.0 모델 개요(출처:바이두)

또한 주목해 볼 것은 바이두(Baidu)는 지난해 7월 말 완전히 새로운 NLP 프레임 워크 ‘ERNIE 2.0’을 오픈 소스로 공개했다. 이 프레임 워크는 중국어와 영어로 16 개의 NLP 작업에서 구글의 BERT와 지난해 공개돼 BERT의 성능을 한참 뛰어 넘는다는 XLNet 모델(다운)을 능가했다고 덧붙였다.

이 것은 곧바로 현실로 다가왔다. 바이두의 NLP '어니(ERNIE2.0)'가 지난달 초 열린 기계가 인간의 언어를 얼마나 잘 이해하는지 평가하는 대회 'GLUE(General Language Understanding Evaluation)'에서 구글, 마이크로소프트(MS) 등을 누르고 90.1점으로 신기록을 세우며 세계 1위를 차지한 것이다. 구글과 MS는 각각 89.9점과 89.7점을 기록해 2,3위에 올랐다.(아래 도표 참조)

GLUE(General Language Understanding Evaluation)' 대회 Leaderboard 캡처

또 BERT와 XLNet의 감독되지 않은 언어 표현 모델은 자연어 추론, 의미론적 유사성, 명명 된 엔터티(Enterty) 인식, 정서 분석 및 질문-응답 일치를 포함하여 다양한 자연어 이해 작업에서 중요한 돌파구를 마련했다. 이는 대규모 코퍼스에 대한 사전 훈련이 자연어 처리에 중요한 역할을 할 수 있음을 나타낸다.

예를 들어, BERT는 단어와 문장의 동시 발생 정보를 캡처하기 위해 양방향 언어 모델 작업과 다음 문장 예측 작업을 구성하며, XLNet은 단어의 동시 발생 정보를 캡처하기 위한 순열 언어 모델 작업을 구성한다. 사전 훈련 모델의 훈련 절차는 주로 단어 나 문장의 동시 발생을 모델링하는 몇 가지 간단한 작업을 기반으로 한다.

ERNIE 2.0 모델의 구조(출처:바이두)
ERNIE 2.0 모델의 구조(출처:바이두)

그러나 완전히 새로운 바이두의 NLP 프레임 워크는 언제든지 다양한 사용자 정의 된 작업을 점진적으로 도입할 수 있으며 작업 전체에서 어휘, 구문 및 의미 정보를 인코딩할 수 있는 다중 작업을 통해 학습된다. 또 새로운 작업이 주어지면 프레임 워크는 이전 작업의 매개 변수를 잊지 않고 분산 표현을 점차적으로 훈련시킬 수 있다.

이밖에 구글은 지난해 10월 검색서비스에 문장의 의미를 이해하는 인공지능(AI) 기술을 도입한다고 발표했다.

인터넷에 있는 대량의 데이터를 이용해 AI가 자연언어를 효율적으로 학습하고 검색 결과의 일부를 강조해 표시하는 기능으로 사용하기 시작했다. 하지만, 검색 결과의 랭킹 표시 방식에도 적용하는 것으로 이 기술을 사용하면 누구나 자신의 최신 질문 응답 시스템을 학습할 수 있다.

즉, 단어들을 한 문장에 있는 다른 단어들과 관련하여 일대일로 처리하기 보다는 한 문장에 처리하는 모델이다. 따라서 새로운 BERT 모델은 이전과 이후에 나오는 단어를 살펴봄으로써 단어의 전체 맥락을 고려할 수 있다. 특히 검색 질의(質疑)의 의도를 이해하는 데 유용하다. 처음에는 영어에 한정되지만, 장기적으로 여러 언어로 확대한다.

사진:본지DB
사진:본지DB

결론적으로 자연 언어 처리(Natural Language Processing)에 기반을 둔 AI 서비스는 향후 몇 년 동안 기하급수적으로 성장할 것으로 예상된다. 실제로, 최근 주니퍼리서치(Juniper Research)는 보고서를 통해 디지털 음성 비서만의 사용건수가 향후 4년 내에 25억에서 80억으로 증가할 것으로 예측했다. 또 가트너(Gartner)는 지난해 발표를 통해 2021년까지 모든 고객 서비스 상호작용의 15%가 AI로 완전히 처리될 것이라고 예측했다.

이처럼 NLP 기술은 인간의 대부분의 지식이 언어로 표현되어 있기에 대량의 비정형화된 언어로부터 세상의 지식을 추출하고 가공할 수 있는 언어정보처리 기술로 차세대 초연결, 초지능 사회 구축을 위해 매우 중요한 기술인 것이다.

기업은 인터넷과 끊임없이 확장되는 통신, 소비 및 상호 작용 수단으로 브랜딩 및 비즈니스 모델을 재고해야 하며. 경쟁적인 시장 경쟁에서 고객을 유치하는 것과 더 지배적인 제품 중심 또는 회사 중심의 모델을 구축하고 비즈니스와 고객 니즈를 처리하는 데 능숙한 AI 기반 솔루션을 구현할 수 있어야 하며, 그에 따른 정부의 적극적인 지원과 관련 인프라 조성 등을 통해 기반을 다져야 할 시점이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.