KAIST-케임브리지-딥마인드의 공동연구로 신경과학 기반 강화학습 이론 통해 성능-효율-속도 균형적 설계 가능

인공지능(AI) 기술과 제반 하드웨어의 진보에 힘입어 강화학습은 다양한 실제 문제를 해결할 수 있는 의사 결정 알고리즘으로 각광받고 있다. 그러나 학습을 위해 많은 양의 경험과 시간이 필요하고, 환경의 변화에 따라 유연하게 전략을 세우지 못하는 등 최신 강화학습 알고리즘으로도 해결하지 못하는 근본적인 이슈들이 여전히 존재한다.

왼쪽부터, 안수진 박사과정, 이지항 박사, 이상완 교수
왼쪽부터, 안수진 박사과정, 이지항 박사, 이상완 교수

인간의 강화학습은 극히 제한된 경험으로도 빠르게 학습하며, 외부 환경 변화에 전략적으로 대처하고 문제를 해결하는 능력을 보여주는 연구결과가 발표됐다. KAIST(총장 신성철) 바이오및뇌공학과 이상완 교수 연구팀이 영국 케임브리지 대학(University of Cambridge), 구글 딥마인드(DeepMind)와의 공동 연구를 통해 차세대 뇌 기반 인공지능 시스템 설계의 방향이 제시된 것이다.

인간 강화학습의 신경과학적 고찰을 통해 제한된 자원과 경험 아래에서 학습의 성능-효율-속도간 균형점을 찾아가는 뇌기반 강화학습 이론에 대해 소개했으며, 로보틱스 등 복잡한 공학 분야로의 응용 가능성에 대해 제안했다. 이번 연구는 인간의 두뇌가 기존의 인공지능 알고리즘이 해결하지 못하는 부분을 해결할 수 있다는 사실에 기반한 신경과학-인공지능 융합 연구로 성능, 효율, 속도의 균형적 설계와 같은 다양한 공학적 난제를 해결할 수 있는 신경과학 기반 강화학습 이론을 제안한 것으로 새로운 인공지능 알고리즘 설계에 긍정적인 영향을 줄 것으로 기대된다.

최적제어 이론에서 출발한 강화학습은 머신러닝의 한 영역으로 지난 20여 년 동안 꾸준히 연구된 분야이다. 특히 지난 5년 동안은 딥러닝 기술을 발전과 맞물려 급격한 성장을 이뤘다. 또한 딥러닝 기반 강화학습 알고리즘은 최근 알파고와 같은 전략 탐색 문제, 로봇 제어, 응급실 비상 대응 시스템과 같은 의료 진단 등 다양한 분야에 적용되고 있다. 그러나 주어진 문제에 맞게 시스템을 설계해야 하는 점, 불확실성이 높은 환경에서는 성능이 보장되지 않는 점 등이 근본적인 해결책으로 남아있다.

강화학습은 의사 결정 및 계산신경과학 분야에서도 지난 20년간 꾸준히 연구되고 있다. 이상완 교수는 2014년 인간의 전두엽-기저핵 뇌 회로에서 이종 강화학습을 제어한다는 신경과학적 증거를 학계에 발표한 바 있다. 2015년에는 같은 뇌 회로에서 고속 추론 과정을 제어한다는 연구를 발표했다. 연구팀은 이번 연구에서 강화학습 등의 개별 인공지능 알고리즘이 해결하지 못하는 공학적 문제를 인간의 두뇌가 이미 해결하고 있다는 사실에 기반한 ‘전두엽 메타 제어’ 이론을 제안했다.

외부 환경에 따라 성능-효율-속도 문제 균형점을 찾는 뇌기반 강화학습 이론 (좌), 이를 최적 제어하는 ‘전두엽 메타 제어’(중) 및 로보틱스 분야 문제 해결 적용 사례 (우)(출처:Science Robotics)
외부 환경에 따라 성능-효율-속도 문제 균형점을 찾는 뇌기반 강화학습 이론 (좌), 이를 최적 제어하는 ‘전두엽 메타 제어’(중) 및 로보틱스 분야 문제 해결 적용 사례 (우)(출처:Science Robotics)

중뇌 도파민-복외측전전두피질 네트워크에서 외부 환경에 대한 학습의 신뢰도를 스스로 평가할 수 있는 보상 예측 신호나 상태 예측 신호와 같은 정보를 처리하며, 인간의 두뇌는 이 정보들을 경쟁적-협력적으로 통합하는 프로세스를 통해 외부 환경에 가장 적합한 학습 및 추론 전략을 찾는다는 것이 이론의 핵심이다.

이러한 원리를 단일 인공지능 알고리즘이나 로봇설계에 적용하면 외부 상황변화에 강인하게 성능, 효율, 속도 세 조건(performance-efficiency-speed tradeoff) 사이의 균형점을 유지하는 최적의 제어 시스템을 설계할 수 있다. 더 나아가 다수의 인공지능 개체가 협력하는 상황에서는 서로의 전략을 이용함으로 협력-경쟁 사이의 균형점을 유지할 수 있다.

제 1 저자인 이지항 박사는 “현대 인공지능의 우수한 성능은 사람의 행동 수준 관찰뿐 아니라 두뇌의 저수준 신경 시스템을 알고리즘으로 구현해 적극적으로 발전시킨 결과라고 보고 있다”라며, “이번 연구는 계산신경과학에 기반한 결과로 현대 딥러닝과 강화학습에서 겪는 성능, 효율, 속도 사이의 난제를 해결하는 실마리가 될 수 있고, 새로운 인공지능 알고리즘 설계에 많은 영감을 줄 것이다”라고 전했다.

이상완 교수는 “연구를 하다 보면 우리의 두뇌는 공학적 난제를 의외로 쉽게 해결하고 있음을 알 수 있다. 이 원리를 인공지능 알고리즘 설계에 적용하는 뇌 기반 인공지능 연구는 구글 딥마인드, MIT, 캘리포니아 공과대학, UCL 등 해외 유수 기관에서도 관심을 두는 신경과학-인공지능 융합 연구 분야이다”라며, “장기적으로는 차세대 인공지능 핵심 연구 분야 중의 하나로 자리를 잡을 것으로 기대한다”라고 전했다.

한편 이상완 교수와 함께 이지항 박사, 안수진 박사과정이 주도한 이번 연구는 국제 학술지 사이언스의 자매지 ‘사이언스 로보틱스(Science Robotics)’ 1월 16일 자 온라인판에 포커스 형식(제목: Toward high-performance, memory-efficient, and fast reinforcement learning-Lessons from decision neuroscience)으로 게재됐다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지