심층신경망(DNN)은 누군가의 두뇌 활동을 모니터링함으로써 사람들의 생각을 해독하고 이해할 수 있다.

이 신경망은 생물학적 뇌에서 뉴런의 구조를 모방하고 인간 청각 피질에서 말을 재구성하면 뇌와 직접 의사소통을 할 수 있는 인공지능

사진은 본 연구에서 A:DNN 아키텍처,B:모델 및 재구성 목표, C:보코더 파라미터 압축(사진:논문캡처)
사진은 본 연구에서 A:DNN 아키텍처,B:모델 및 재구성 목표, C:보코더 파라미터 압축(사진:논문캡처)

공상과학영화 속 이야기가 아니다. 인공지능으로 누군가의 두뇌 활동을 모니터링함으로써 '생각을 이해할 수 있고', 그 내용을 '인식 가능한 언어'로 변환하는 시스템을 만들었다. 전례없는 정확도로 우리의 생각을 단어로 재구성 할 수 있는 이 기술은 콜롬비아 대학(Columbia University) 주커먼 연구소(Mortimer B. Zuckerman Mind Brain Behavior Institute) 연구원들의 개발한 시스템으로 연구결과는 네이처의 학술자매지 사이언티픽 리포트(Scientific Reports)를 통해 지난달 29일(현지시각) 발표됐다.

음성합성기와 인공지능(AI)의 힘을 이용하는 이 획기적인 기술은 컴퓨터가 인간의 뇌와 직접 통신할 수 있는 혁신적인 방법을 이끌어 낼 수 있으며, 근위축성측삭경화증(ALS, 筋萎縮性側索硬化症, amyotrophic lateral sclerosis)으로 살아가는 사람들이나 뇌졸중에서 회복하는 사람들과 같이 말을 할 수 없는 사람들을 돕는 기초가 되어 외부와 의사소통할 수 있는 능력을 되찾을 수 있도록 도와줄 수 있다고 한다.

특히 연구에서 청각 자극 재구성(Auditory stimulus reconstruction)은 유발된 신경 활동의 개체군으로부터 음향 자극의 가장 근사치를 추정하는 기법으로 인간 청각 피질에서 말을 재구성하면 뇌와 직접 의사소통을 할 수 있는 언어 신경 보철(speech neuroprosthetic)의 가능성이 만들어지며, 명백하고 은밀한 조건에서 가능한 것으로 나타났다.

그러나 재구성 된 음성의 품질이 낮기 때문에 뇌-컴퓨터 인터페이스(BCI, Brain Computer Interface) 응용 프로그램에 대한 이 방법의 유용성은 심각하게 제한되었다. 연구팀은 언어 신경 보철의 최첨단 기술을 발전시키기 위해 최근의 심층 학습과 언어 합성 기술을 결합하여 인간 청각 피질에서 발생되는 일정한 패턴을 음성으로 재구성했다.

사진은 이 논문의 수석 저자이자 컬럼비아 대학 모티머 B. 주커먼 마인드 브레인 행동 연구소의 수석 연구원이자 컬럼비아대 공학부 전기공학 부교수인 '니마 메스가라니(Nima Mesgarani)' 박사(사진:컬럼비아대학)

연구팀은 심층신경망(DNN, Deep Neural Network)의 선형 및 비선형 회귀(linear and Nonlinear Regression) 방법에 대한 재구성 정확도의 의존성과 청각 분광기 및 음성 합성 매개 변수를 포함하여 재구성의 대상으로 사용되는 음향 표현을 조사했다. 또한 낮고 높은 각각의 신경 주파수 범위의 재구성 정확도를 비교했다. 결과는 직접적으로 심층신경망 모델이 모든 신경 주파수의 음성 신디사이저의 매개 변수는 자릿수 인식 작업에서 가장 높은 주관적 및 객관적인 점수를 획득하여 청각 분광기를 재구성하기 위해 선형 회귀를 사용하는 기준 방법보다 지능을 65 % 향상시켰다.

특히 이러한 결과는 마비 환자의 의사소통을 복원할 수 있을 뿐만 아니라 인간 - 컴퓨터 상호 작용 기술을 혁신시킬 가능성이 있는 차세대 음성 뇌-컴퓨터 인터페이스 시스템 설계를 위한 심층 학습 및 음성 합성 알고리즘의 효과를 입증한 것이라고 한다.

이 논문의 수석 저자이자 컬럼비아 대학Columbia University) 주커먼 연구소(Mortimer B. Zuckerman Mind Brain Behavior Institute)의 수석 연구원인 니마 메스가라니(Nima Mesgarani) 박사는 “우리의 목소리는 우리와 친구, 가족, 주변 세계와 연결됩니다. 그래서 부상이나 질병으로 인해 목소리를 잃는 것이 너무나도 충격적입니다.” 이라며, 이 연구로 "우리는 그 힘을 회복할 수 있는 잠재적인 방법을 찾았습니다. 우리는 이 기술을 통해 이러한 사람들의 생각을 해독하고 이해할 수 있음을 보여주었으며, 이것은 게임 체인저가 될 것입니다. 부상이나 질병을 통해 말을 할 수 있는 능력을 상실한 사람들에게 주위 세계와 새로운 기회를 가질 수 있습니다"라고 말했다.

컬럼비아대 공학부 전기공학 부교수이기도 한 메스가라니 박사와 연구원들은 뇌 신호를 해독하려는 초기 노력은 음파를 시각적으로 표현하는 분광기를 분석하는 간단한 컴퓨터 모델에 초점을 맞췄다. 하지만 이 접근법은 이해할 수 있는 말과 유사한 어떤 것도 만들어내지 못했기 때문에 연구팀은 목소리 대신 사람들의 대화 녹음으로 훈련시킨 후에 음성을 합성할 수 있는 컴퓨터 알고리즘인 보코더(voice coder)로 바꿨다.

메스가라니 박사는 “이것은 아마존 에코(Amazon Echo)와 애플 시리(Apple Siri)가 우리의 질문에 구두로 답하기 위해 사용하는 것과 같은 기술입니다. 우리는 같은 환자들에게 뇌 신호를 녹음하는 동안 0에서 9 사이의 숫자를 암송하는 스피커의 소리를 들어달라고 부탁했습니다. 이러한 신호에 반응하여 내는 소리는 신경망에 의해 분석되고 정리되었습니다” 라며, “이 새로운 기록을 이전의 분광 프로그램 기반 시도와 비교할 때, 더 쉽게 이해할 수 있게 되었습니다. 특히 강력한 신경 네트워크는 환자들이 처음에 들었던 소리를 놀라운 정확도로 표현했으며, 이 신경망은 생물학적 뇌에서 뉴런의 구조를 모방하는 인공지능의 한 종류입니다"라고 덧붙였다.

한편 이번 개발 및 연구내용은 ‘인간 청각 피질에서 이해할 수 있는 말의 재구성을 향한(Towards reconstructing intelligible speech from the human auditory cortex)’이란 제목으로 사이언티픽 리포트(Scientific Reports)를 통해 지난달 29일 발표됐으며, 더 자세한 내용은 논문을 참조하면 된다.(논문 다운받기)

저작권자 © 인공지능신문 무단전재 및 재배포 금지