후지쯔, 기존의 강화 학습에서 인력으로 조정하고 있던 부분을 인공지능이 자율적으로 조정하는

이미지:후지쯔

광대한 데이터를 기반으로 다양한 작업을 수행하는 기계학습은 이미지 인식과 음성 인식 분야에서 실용화가 급속히 진행되어, 현재 인공지능(AI) 기술의 중심이 되고 있다. 이미지 인식이나 음성 인식은 인식기가 취해야 할 올바른 인식 결과가 부여된 데이터에서 인식을 위한 방안을 획득하는 것을 말한다.

이러한 유형의 기계 학습을 '감독 학습(Supervised learning)' 이라고 한다. 감독학습은 말 그대로 인간이 감독을 하며 결과가 이미 나와 있는 훈련용 데이터(training set)를 던져주면, 그 데이터를 기반으로 학습을 하여 어떠한 패턴을 도출하는 알고리즘이다.

최근에는 올바른 행동이 제시되지 않은 상황에서도 행동에 따라 주어지는 보상을 단서로 그리고 시행착오를 통해 환경에 적응하여 최적의 행동 선택 방안을 획득시키는 '강화 학습(Reinforcement learning)'에 대해서도 관심이 집중되고 있다.

그러나 기존의 강화 학습은 주목할 만한 정보를 미리 설계자가 지정하거나 문제마다 학습을 다시 할 필요가 있기 때문에 준비에 많은 시간이 소요돼 실생활에서의 적용은 제한이 있는 것이 과제였다.

이에 반해 인간의 뇌는 다양한 정보에서 본질적인 것을 선택하고 과거의 학습을 통해 새로운 문제를 해결하거나 특정 상황에 적합한 행동과 더 확실하고 안전한 행동을 수시로 전환 하는 응용력 있는 학습을 실현하고 있다. 또한 다양한 정보에서도 순식간에 필수적인 정보를 선택하고 안전하고 더 확실한 행동으로 전환 할 수 있다.

이처럼 뇌 과학의 최신 지견(latest knowledge)을 활용한 '강화 학습 알고리즘' 연구를 오키나와과학대학 기술대학원(OIST)과 후지쯔 연구소는 뇌 과학의 최신 연구 결과를 활용하여 인간처럼 응용력 있는 강화 학습 알고리즘에 관한 공동 연구를 시작했다.

이것은 인간의 뇌의 학습 방법에 주목하고 그 메커니즘을 강화 학습 알고리즘에 도입함으로써 인간처럼 응용력을 실제 사회에서 널리 적용할 수 있는 인공지능의 실현을 목표로 하는 것이다. 즉 기존의 강화 학습에서 인력으로 조정하고 있던 부분을 인공지능이 자율적으로 조정하고 더 응용력 있고 유연한 '강화 학습 알고리즘'을 개발하는 것이다.

구체적으로는 1)동적으로 변화하는 대량 데이터 중에서 강화 학습에 적합한 정보를 취득하는 '자동 추출 기술' 2)과거의 경험을 다른 문제 행동 선택 방안으로 활용하는 '전이 학습 기술' 3)여러 방안에서 상황에 따라 행동을 선택하는 '협조 병렬 강화 학습 기술' 등의 세 가지 새로운 기술을 개발하는 것이다.

OIST의 도야 겐지(銅谷賢治) 교수의 연구팀은 인간의 뇌 과학의 관점에서 신경 계산기구의 수학적 모델링을 하고, 강화 학습 알고리즘에 반영하며, 후지쯔 연구소는 제어 공학의 관점에서 알고리즘 고안에 참여하는 동시에 계산 자원을 최대한 활용하는 구현 방법을 개발하는 것이다.

한편 후지쯔 연구소는 강화 학습을 포함 인공지능의 고도화와 뇌 과학의 융합이 중요하며, 앞으로 인간의 뇌가 가진 적응력과 유연성을 도입함으로써 ICT 시스템 관리, 에너지 관리 등 다양한 산업에서 보다 효율적으로 문제를 해결하는 인공지능 솔루션의 개발을 목표로 한다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지