인공지능 자연어 처리(NLP), 텍스트 생성을 위한 제어 가능하고 효율적인 접근 방법

대상 텍스트는 토큰 유지, 삭제 및 토큰 앞에 문구 추가 등의 세 가지 주요 편집 작업을 사용하여 입력에서 재구성 된다. 또 편집 작업을 예측하기 위해 BERT 인코더와 자동 회귀 변환기 디코더를 결합한 새로운 모델

인공지능 구현에 핵심적인 구글의 자연어 처리(NLP) 방식은 규모, 언어 및 도메인에 적용되는 알고리즘에 중점을 두고 여러 방식으로 사용되어 검색, 모바일, 앱, 광고, 번역 등의 사용자 경험을 제공하고 있다.

전통적인 시스템을 뒷받침하는 범용 구문 및 의미론적 알고리즘으로 전통적인 NLP 작업 범위에 걸쳐 있다. 특히 확장성이 뛰어나고 분산된 환경에서 효율적으로 실행될 수 있는 알고리즘으로 구문 체계는 주어진 문장에서 각 단어에 대한 품사 태그와 성별 및 수와 같은 형태적 특징을 예측한다.

또 주제, 대상, 수정 등과 같은 단어 간의 관계에 레이블을 지정하고 레이블이 없는 대량의 데이터를 활용하고 최근에 신경망 기술을 통합한 효율적인 알고리즘에 중점을 두고 있다.

의미측면에서는 자유 텍스트로 엔터티를 식별하고 유형(예: 사람, 위치 또는 조직)으로 레이블을 지정하고 문서 내 및 문서 간에 해당 엔터티에 언급하고(공동 해결) 엔터티를 지식 그래프로 확인한다.

최근에는 명사구, 문장 및 문서 수준에서 프레임 의미를 적용할 뿐만 아니라 텍스트 분석에 도움이 되는 여러 가지 지식 및 정보 소스를 통합하고 있다.

전통적인 시퀀스-투-시퀀스(Sequence-to-Sequence. 이하 seq2seq) 모델은 기계 번역의 분야를 혁명과 같은 다양한 텍스트 세대 작업에 대한 선택의 도구로 사용되고 있다. 요약, 문장 융합 및 문법 오류 수정, 모델 아키텍처(예: Transformer)의 개선과 감독되지 않은 사전 훈련(Unsupervised Pre-Training을 통해 주석 없는 말뭉치를 활용할 수 있는 능력은 최근 몇 년 동안 신경망 접근 방식의 품질 향상을 가능하게 했다.

그러나 텍스트 생성에 seq2seq 모델을 사용하면 사용 사례에 따라 입력 텍스트에서 지원하지 않는 출력 생성(환각/hallucination 이라고 함) 및 많은 양의 교육 데이터에 도달하는 등 많은 실질적인 단점이 발생할 수 있다. 또 seq2seq 모델은 일반적으로 출력 별 단어 단위를 생성하므로 추론 시간이 본질적으로 느려지는 단점이 있었다.

이에 구글은 단점을 구체적으로 해결하도록 설계된 텍스트 생성 방법과 고정밀 텍스트 생성 및 편집 작업으로 사용하는 시퀀스 태깅 방식인 레이저태거(LaserTagger)를 블로그를 통해 오픈소스로 제공한다고 지난달 31일(현지시간) 밝혔다.

구글의 새로운 시퀀스 태깅 방식인 레이저태거(LaserTagger)를 오픈소스로 공개(사진:깃허브 캡처)

대상 텍스트는 토큰 유지, 삭제 및 토큰 앞에 문구 추가 등의 세 가지 주요 편집 작업을 사용하여 입력에서 재구성 된다. 또 편집 작업을 예측하기 위해 BERT 인코더와 자동 회귀 변환기 디코더를 결합한 새로운 모델인 것이다.

이 접근법은 문장 융합, 문장 분할, 추상 요약 및 문법 수정의 네 가지 작업에 대한 텍스트로 평가된다. 레이저태거는 이러한 세 가지 작업에 대해 새로운 최첨단 결과를 달성하고, 많은 훈련 예제를 사용하여 일련의 강력한 seq2seq 기준선과 비슷한 성능을 발휘하며, 예제 수가 제한되어 있다면 성능을 능가한다고 한다.

특히 이 플랫폼은 속도와 정밀도를 강조하기 위해 레이저태거(LaserTagger)라고 명명했다고 한다. 처음부터 출력 텍스트를 생성하는 대신 레이저태거는 예측된 편집 조작으로 단어에 태그를 지정하여 출력을 생성한 다음, 별도의 실현 단계에서 입력 단어에 적용하므로 오류 발생이 적은 텍스트 생성 방식으로 학습하기 쉽고 모델 아키텍처를 더 빠르게 실행하여 처리할 수 있는 것이다.

많은 텍스트 생성 작업의 뚜렷한 특징은 입력과 출력 사이에 높은 중복이 있는 경우가 많다. 예를 들어, 문법적 실수를 탐지하고 고칠 때 또는 문장을 융합할 때 대부분의 입력 텍스트는 변경되지 않고 단어의 작은 부분만 수정해야 한다.

이러한 이유로 레이저태거는 실제 단어 대신 일련의 편집 작업을 수행한다. 사용하는 네 가지 유형의 편집 작업은 유지(출력에 대한 단어를 복사), 삭제(단어 제거) 및 유지 - AddX / 삭제 - AddX (태그된 단어 전에 X 문구를 추가하고 선택적으로 태그가 지정된 단어를 삭제) 등으로 이 과정은 아래 그림에 설명되어 있으며, 이것은 문장 융합에 레이저태거를 적용하는 것을 보여준다.

레이저태거는 문장 융합에 적용되었다. 예측된 편집 연산은 삭제에 해당한다. 튜링과 그 앞에 "그리고 그"를 추가하는 것. 입력과 출력 텍스트 사이의 높은 겹침을 보여준다.(이미지:구글AI)

모든 추가된 문구는 제한된 어휘에서 나온다. 이 어휘는 어휘 크기를 ‘최소화하고’, ‘대상 텍스트에 추가하는 데 필요한 유일한 단어가 어휘에서만 나오는 훈련 예제의 수를 최대화’하는 두 가지 목표를 가진 최적화 프로세스의 결과이다.

또 제한된 구 어휘를 사용하면 출력 결정의 공간이 작아지고 모델이 임의적인 단어를 추가하지 못하도록 하므로 환각의 문제를 완화한다. 입력 및 출력 텍스트의 높은 중첩 특성의 결과는 필요한 수정이 서로 국부적이고 독립적인 경향이 있다. 이는 편집 연산이 높은 정확도로 병렬로 예측될 수 있으며, 예측을 순차적으로 수행하는 자기 회귀 seq2seq 모델에 비해 상당한 엔드 - 투 - 엔드 속도를 가능하게 하여 이전 예측을 조건화 할 수 있음을 의미한다.

문장 융합, 분할 및 재구문, 추상적 요약, 문법 수정 등 네 가지 과제에 대한 레이저태거의 평가는 작업 전반에 걸쳐 많은 수의 훈련 예제를 사용하는 강력한 BERT 기반 seq2seq 기준선과 비교할 수 있게 수행하며, 훈련 예제의 수가 제한적일 때 이 기준선을 분명히 능가한다. 아래는 위키스플리트 데이터셋에 대한 결과를 보여주는데, 여기서 긴 문장을 두 개의 일관된 짧은 문장으로 바꾸는 것이 과이다.

1백만 개의 예제 전체 데이터 세트에서 모델을 훈련할 때, 레이저태거와 BERT 기반 seq2seq 기준선 모델은 모두 비교할 수 있게 수행되지만, 1만 개 이하의 서브샘플에서 훈련할 때, 레이저태거는 기준선 모델보다 분명히 성능이 뛰어나다(SARI 점수가 높을수록 더 좋다).

결론적으로 레이저태거의 주요 장점을 전통적인 seq2seq 방법과 비교해 레이저태거는 다음과 같은 장점을 요약할 수 있다.

제어: 수동으로 편집하거나 큐레이트 할 수 있는 출력 문구 어휘를 제어함으로써 레이저태거는 seq2seq 기준선보다 환각에 덜 취약하다.

추론 속도: 레이저태거는 seq2seq 기준선보다 최대 100 배 빠른 예측을 계산하여 실시간 응용 프로그램에 적합하다.

데이터 효율성: 레이저태거는 몇 백 개 또는 몇 천 개의 훈련 사례를 사용하여 훈련했을 때에도 합리적인 결과를 산출한다. 구글의 실험에서 경쟁적인 seq2seq 기준선은 수만 개의 예를 들어 비교 가능한 성능을 확보해야 했다.

그러면 왜 이것이 중요한가?

레이저태거의 장점은 응답의 속도를 줄이고 반복을 줄임으로써 일부 서비스에서 음성 응답의 공식화를 개선하는 것과 같이 대규모로 적용될 때 더욱 두드러진다.

즉, 높은 추론 속도는 모델이 사용자 측에 눈에 띄는 대기 시간을 추가하지 않고 기존 기술 스택에 연결될 수 있게 해주는 반면, 개선된 데이터 효율은 많은 언어에 대한 훈련 데이터 수집을 가능하게 하여 서로 다른 언어 배경으로부터 사용자에게 이익을 줄 수 있는 것이다. (참고: 누구나 사용할 수 있는 구글이 공개한 새로운 시퀀스 태깅 방식인 레이저태거(LaserTagger) 오픈소스 다운)

최창현 기자 aitimes@naver.com

다른기사 보기

상단영역

본문영역

인공지능 자연어 처리(NLP), 텍스트 생성을 위한 제어 가능하고 효율적인 접근 방법

대상 텍스트는 토큰 유지, 삭제 및 토큰 앞에 문구 추가 등의 세 가지 주요 편집 작업을 사용하여 입력에서 재구성 된다. 또 편집 작업을 예측하기 위해 BERT 인코더와 자동 회귀 변환기 디코더를 결합한 새로운 모델

기사 댓글 0

비회원 로그인