말과 음악을 분석하기 위한 딥뉴럴네트워크를 훈련하고 신경망은 인간의 청각 행동을 복제하고 뇌 반응을 예측하며, 대뇌 피질의 처리를 나타낸다.

이미지:MIT
이미지:MIT

1980 년대 딥뉴럴네트워크(Deep Neural Network)가 처음 개발되었을 때, 신경 과학자들은 그러한 시스템이 인간 두뇌 모델링에 사용될 수 있기를 희망했다. 그러나 그 시대의 컴퓨터는 객체 인식이나 음성 인식과 같은 실제 작업을 수행할 수 있는 정도로 강력하지 못했다. 최근 5 년 동안 컴퓨팅 파워와 신경망 기술의 진보로 인해 신경망을 사용하여 어려운 실제 작업을 수행할 수 있었으며, 많은 엔지니어링 응용 분야에서 표준 접근 방식이 되었다.

최근 MIT의 신경 과학자들은 사람이 하는 것과 같은 방식으로 말과 음악을 처리 할 수 있는 기계 학습 시스템을 개발했다. 연구팀은 머신러닝을 사용하여 음악 장르를 식별하는 것과 같은 청각 작업에 인간의 수행 능력을 복제할 수 있는 처음으로 모델을 완성했다고 Neuron誌 4 월 19 일자를 통해 발표됐다. (원제: A Task-Optimized Neural Network Replicates Human Auditory Behavior, Predicts Brain Responses, and Reveals a Cortical Processing)

연구팀은 신경 네트워크를 훈련하여 두 가지 청취 과제를 수행했다. 하나는 연설과 관련된 것이고 또 다른 하나는 음악과 관련된 것으로 스피치 과제를 위해 수천 가지의 예제를 거친 후 이 모델은 인간 청취자만큼 정확하게 작업을 수행하는 방법을 학습했으며, 작업은 클립의 중간에 있는 단어를 식별하는 것이며, 또 음악 작업을 위해 모델에 음악 클립의 장르를 식별하도록 요청했다. 각 클립에는 작업을 보다 현실감 있게(그리고 더 어렵게 만들기 위해) 백그라운드 노이즈가 포함됐다.

이번 청각 신경 연구의 핵심 목표는 자연적 소리에 대뇌 피질 반응을 예측하는 정량 모델을 구축하는 것으로 청각 피질의 완전한 모델이 생태학적으로 관련된 작업을 해결해야 한다는 이유로, 연구팀은 음성 및 음악 인식을 위해 계층적 신경망을 최적화했으며, 최고의 성능을 발휘하는 네트워크에는 공유 처리 이후에 별도의 음악 및 연설 경로가 포함되어 잠재적으로 인간의 피질 조직을 복제했으며, 네트워크는 인간과 같은 두 가지 작업을 모두 수행했으며, 네트워크와 사람의 성능에 공통적인 제약을 제시했다.

또한 네트워크는 기능적 자기 공명 영상(fMRI) 복셀(voxel)에 청각 피질 전반의 전통적인 분광적인(spectrometporal) 필터 모델보다 훨씬 좋을 것으로 예측했으며, 대뇌 피상적 계층 구조의 정량적 서명을 제공했다. 중간 및 후기 네트워크 계층에서 각 1 차 및 1 차 응답을 가장 잘 예측했으며, 결과는 작업 최적화가 감각 시스템 모델링을 위한 강력한 도구 세트를 제공함을 시사했다.

이 연구 논문은 MIT 대학원생 알렉산더 켈(Alexander Kell)과 스탠포드 대학 조교수 다니엘 야민스(Daniel Yamins)이 주 저자로 인간의 청각 피질이 시각 피질과 마찬가지로 계층적 조직으로 배열되어 있다는 증거를 제시했으며, 이러한 유형의 배열에서 감각 정보는 처리된 기본 정보와 나중 단계에서 추출된 단어 의미와 같은 고급 기능을 사용하여 연속적인 처리 단계를 거친다. 결과적으로 이런 유형의 감각 처리는 이해하기 어려웠으나 이번 결과로 인간 수준에서 일어나는 감각 작업을 수행할 수 있는 최초의 기계 시스템인 것이다.

결과적으로 시간이 지남에 따라 모델이 더 좋아지고 작업이 향상됐으며, 모델은 인간이 가장 많이 실수한 동일한 클립에서 실수를 저지르는 경향이 있었으며, 신경망을 구성하는 처리 장치는 다양한 방식으로 결합될 수 있어 모델의 성능에 영향을 미치는 다른 아키텍처를 형성했다. 연구팀은 이 두 가지 작업에 가장 적합한 모델이 처리를 두 단계로 나누는 것을 발견했다. 첫 번째 단계 세트는 작업 간에 공유되었지만 이후에는 두 가지 지점으로 나뉘어 분석을 진행했다. 하나는 음성 작업을 위한 지점이고 다른 하나는 음악 장르 작업을 위한 지점입니다.

아울러 모델을 사용하여 계층적으로 조직되었는지 여부 등의 청각 피질의 구조에 관한 오랜 의문에 계층적 시스템에서 일련의 뇌 영역은 시스템을 통과할 때 감각 정보에 대해 서로 다른 유형의 계산을 수행하며, 시각 피질에는 이러한 유형의 조직이 있다는 것을 잘 입증했다. 일차 시각 피질로 알려진 이전 조직은 색이나 방향과 같은 간단한 기능에 반응했으며, 나중의 단계는 객체 인식과 같은 더 복잡한 작업을 가능하게 했다. 그러나 인간의 청각 행동을 복제할 수 있는 좋은 모델이 없었기 때문에 이 유형의 조직이 청각 피질에도 존재하는지 테스트 하는 것은 어려웠다.

한편 연구자들은 모델에서 주파수와 같은 소리의 기본 특징을 초기 단계에서 추출하기가 쉽다는 것을 발견했으며, 인간의 청각 피질이 소리 정보를 처리하는 방법을 모델 단계에서 반복할 수 있는지 알아보기 위해 기능적 자기 공명 영상(fMRI)을 사용하여 뇌가 실제 소리를 처리할 때 청각 피질의 다른 영역을 측정했다. 그런 다음 두뇌 반응을 동일한 소리를 처리할 때 모델의 반응과 비교했으며, 모델의 중간 단계가 일차 청각 피질의 활동에 가장 잘 부합하고 나중 단계는 일차 피질이 외부의 활동에 가장 잘 부합한다는 것을 발견했다. 또 시각 피질과 유사한 계층적 방식으로 청각 피질이 배열될 수 있다는 증거를 확인한 것이다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지