‘다음’ 단어 예측에 최적화된 몇 가지를 포함하여 43개의 서로 다른 언어 모델을 분석했다. 여기에는 프롬프트가 주어지면 인간이 생성하는 것과 유사한 텍스트를 생성할 수 있는 GPT-3도 포함된다. 다른 모델은 문장의 공백 채우기와 같은 다양한 언어 작업을 수행하도록 설계

이미지:본지DB
이미지:본지DB

지난 몇 년 동안 언어 인공지능 모델은 특정 작업에 매우 능숙해졌다. 가장 주목할 만한 점은 텍스트 문자열에서 다음 단어를 예측하는 데 탁월하다는 것이다. 이 기술은 검색 엔진과 문자 메시지 앱이 입력하려는 다음 단어를 예측하는 데 도움이 된다.

가장 최근 세대의 예측 언어 모델도 언어의 기본 의미에 대해 학습하는 것으로 보인다. 이 모델은 다음에 나오는 단어를 예측할 수 있을 뿐만 아니라 질문 답변, 문서 요약 및 스토리 완성과 같이 어느 정도 진정한 이해가 필요한 것처럼 보이는 작업을 수행한다.

또한 이러한 모델은 인간의 두뇌가 이 작업을 수행하거나 언어를 이해하는 방법을 모방하지 않고 텍스트 예측의 특정 기능에 대한 성능을 최적화하도록 설계되었다. 그러나 MIT 인공지능 및 신경과학자들의 새로운 연구는 이러한 모델의 기본 기능은 인간 두뇌의 언어 처리 센터의 기능과 유사하다고 25일(현지시간) 밝혔다.

MIT 인공지능 및 신경과학자들은 다음 단어 예측 모델의 내부 작동이 뇌의 언어 처리 센터와 유사하다는 것을 발견했다.(사진:MIT)
MIT 인공지능 및 신경과학자들은 다음 단어 예측 모델의 내부 작동이 뇌의 언어 처리 센터와 유사하다는 것을 발견했다.(사진:MIT)

다른 유형의 언어 작업에서 잘 수행되는 컴퓨터 모델은 인간 두뇌와 이러한 유사성을 나타내지 않으며, 인간 두뇌가 언어 처리를 구동하기 위해 다음 단어 예측을 사용할 수 있다는 증거를 제시했다.

새로운 고성능 다음 단어 예측 모델은 심층 신경망이라는 모델 클래스에 속한다. 이러한 네트워크에는 다양한 강도의 연결을 형성하는 계산 노드와 규정된 방식으로 서로 정보를 전달하는 레이어가 포함된다.

지난 10년 동안 과학자들은 영장류의 두뇌와 마찬가지로 물체를 인식할 수 있는 시각 모델을 만들기 위해 심층 신경망을 사용해 왔다. MIT의 연구에 따르면 컴퓨터 모델이 뇌를 모방하도록 특별히 설계되지는 않았지만 시각적 객체 인식 모델의 기본 기능이 영장류 시각 피질의 조직과 일치한다는 사실을 밝혔다.

이번 새로운 연구에서 MIT 연구팀은 유사한 접근 방식을 사용하여 인간 두뇌의 언어 처리 센터를 언어 처리 모델과 비교했다. 이를 위해 ‘다음’ 단어 예측에 최적화된 몇 가지를 포함하여 43개의 서로 다른 언어 모델을 분석했다. 여기에는 프롬프트가 주어지면 인간이 생성하는 것과 유사한 텍스트를 생성할 수 있는 GPT-3(Generative Pre-trained Transformer 3)도 포함된다. 다른 모델은 문장의 공백 채우기와 같은 다양한 언어 작업을 수행하도록 설계되었다.

각 모델에 일련의 단어가 제시되면서 연구자들은 네트워크를 구성하는 노드의 활동을 측정했다. 그런 다음, 그들은 이 패턴을 세 가지 언어 작업(이야기 듣기, 한 번에 한 문장 읽기, 한 번에 한 단어가 드러나는 문장 읽기)을 수행하는 피험자에서 측정한 인간 두뇌의 활동과 비교했다.

이 인간 데이터 세트에는 기능적 자기공명(fMRI) 데이터와 간질로 뇌수술을 받는 사람들을 대상으로 한 두 개 내 전기피질 측정값이 포함되었다.

연구팀은 가장 성능이 좋은 다음 단어 예측 모델이 인간 두뇌에서 볼 수 있는 것과 매우 유사한 활동 패턴을 가지고 있음을 발견했으며, 동일한 모델의 활동은 사람들이 텍스트를 얼마나 빨리 읽을 수 있는지와 같은 인간 행동 측정과 높은 상관관계가 있었다고 밝혔다.

이 연구에 참여하지 않았던 스탠포드 대학의 심리학 및 컴퓨터 과학 다니엘 야민스 교수는 “이 작업에서 핵심적인 교훈은 언어 처리가 매우 제약이 심한 문제라는 것이다"며, "AI 엔지니어들이 만든 최선의 해결책은 결국 인간의 뇌를 창조한 진화 과정의 해결책과 비슷하게 된다"고 말했다.

이어 그는 "AI 네트워크는 뇌를 직접 모방하려고 하지 않았지만 결국 뇌처럼 보이기 때문에 이것은 어떤 의미에서 AI와 자연 사이에 일종의 수렴 진화가 일어났다는 것을 암시한다"고 덧붙였다.

GPT-3와 같은 예측 모델의 주요 계산 특징 중 하나는 예측 트랜스포머(transformer)로 알려진 요소다. 이런 종류의 트랜스포머는 이전의 시퀀스를 기반으로 다음에 올 것을 예측할 수 있다. 여기서 중요한 특징은 마지막 몇 단어뿐만 아니라 매우 긴 사전 맥락(수백 단어)을 바탕으로 예측을 할 수 있다는 것이다.

이 연구를 주도한 MIT의 컴퓨터 인지과학 교수이자 MIT 인공지능연구소(CSAIL)의 조슈아 테넌바움(Joshua Tenenbaum) 박사는 "과학자들은 이런 종류의 처리에 해당하는 뇌 회로나 학습 메커니즘을 발견하지 못했다. 그러나 이 새로운 발견은 예측이 언어 처리의 핵심 기능 중 하나라는 이전에 제안된 가설과 일치한다"고 밝혔다.

그는 이어 "언어 처리의 어려움 중 하나는 실시간 측면이다"라며, "언어가 들어오기 때문에, 그것을 따라가야 하고 실시간으로 그것을 이해할 수 있어야 한다"고 덧붙였다.

연구팀은 이제 이러한 언어 처리 모델의 변형을 구축하여 아키텍처의 작은 변경이 성능과 인간의 신경 데이터에 맞는 능력에 미치는 영향을 확인할 계획이다.

MIT 인공지능연구소(CSAIL)와 CBMM(Center for Brains, Minds, and Machines) 멤버이자 공동 저자인 에벨리나 페도렌코(Evelina Fedorenko) 박사는 "저에게 이 연구 결과는 게임 체인저였습니다"라며, "제 연구 프로그램을 완전히 바꾸고 있습니다"라고 말했다.

이어 그는 "제 평생 동안 뇌에 대해 충분히 포착하여 뇌가 어떻게 작동하는지 이해하는 데 실제로 활용할 수 있는 이러한 계산적으로 명시적인 모델에 도달하게 될 것이라고는 예상하지 못했기 때문입니다"라고 이번 연구 소감을 밝혔다.

연구자들은 또한 이러한 고성능 언어 모델을 테넨바움 교수 실험실이 이전에 개발한 일부 컴퓨터 모델과 결합하여 물리적 세계에 대한 지각 표현을 구축하는 것과 같은 다른 종류의 작업을 수행할 수 있도록 노력할 계획이다.

테넨바움 교수는 "만약 우리가 이러한 언어 모델들이 무엇을 하고 어떻게 그들이 지각하고 생각하는 것과 같은 일을 하는 모델들과 연결될 수 있는지 이해할 수 있다면, 그것은 우리에게 뇌에서 어떻게 사물이 작용하는지에 대한 더 통합적인 모델을 제공할 수 있을 것"이라고 말했다.

이어 그는 "이것은 우리를 더 나은 인공지능 모델로 이끌 수 있을 뿐만 아니라 과거보다 더 많은 뇌가 작동하고 일반 지능이 어떻게 출현하는지에 대한 더 나은 모델을 제공할 수 있습니다"라고 덧붙였다.

한편, 이 연구 결과는 지난해 6월 논문 사전발표 플랫폼 바이오알카이브(bioRxiv)에 공개됐으며, 이번 주에 미국 국립과학원 회보(Proceedings of the National Academy of Sciences)에 '언어의 신경 구조: 예측 프로세싱에 대한 통합 모델링(The neural architecture of language: Integrative modeling converges on predictive processing-다운)'이란 제목으로 실렸다.

아래는 이 논문의 제 1저자이자 CBMM(두뇌, 마음, 기계 센터) 멤버이자 MIT 대학원생인 마틴 슈림프(Martin Schrimpf)가 26일(현지시간) 유튜브에 업로드한 연구 소개 영상이다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지