MIT 불가능한 AI 연구소와 MIT 컴퓨터과학 및 인공지능연구소, 핀란드 알토대학교 등의 공동연구팀이 AI가 너무 호기심이 많고 주어진 작업에 산만해지는 문제를 극복하는 알고리즘으로 AI 에이전트가 필요할 때 자동적으로 호기심을 증가시키고, 환경으로부터 충분한 감독을 받아 무엇을 해야 할지 알게 되면 그것을 억제할 줄 안다.

이미지:픽사베이, 편집:본지
이미지:픽사베이, 편집:본지

호기심(好奇心, Curiosity)은 동물이나 인간에게서 발견되는 선천적으로 무엇이든 알고 싶어하는 행동들의 원인이 되는 감정이다.

이는 타고난 능력이긴 하지만 정형화된 행동양식의 결여로 인해 본능의 범주에는 속하지는 못하지만 그 호기심은 인간에게서 나이와 상관없이 유아에서부터 노인까지 모든 연령대에서 발현되고 또한, 동물 등과 같은 다른 생명체에서도 흔히 볼 수 있다

여기에, 전 세계 경영진에게 350회 이상의 강연을 진행한 세계적으로 인정받는 사상가이자 작가, 경영혁신 전문가인 그렉 옴(Greg Orme)이 2019년 12월 초판을 시작으로 지난해 국내에도 번역 출간된 '휴먼 엣지(The Human Edge)'에서 저자는 인공지능이 대체할 수 없는 인간의 능력을 4C라고 했다.

4C는 의식(Consciousness), 호기심(Curiosity), 창의성(Creativity), 협업(Collaboration)’이다. 저자는 이 책을 통해 “인공지능이 흉내 낼 수 없는 인간의 능력이 바로 4C”라며, 이를 활용하는 실천 전략을 소개하며, 그 중 최고를 호기심으로 꼽았다. 호기심 없이는 의식의 성장도, 창의성과 협업도 생겨날 수 없기 때문이다.

그러나, 호기심은 이미 인공지능에서도 세계를 탐험하도록 유도하며, 이제는 자율 내비게이션, 로봇 의사 결정, 건강 결과 최적화 등을 예로 들 수 있다. 머신은 어떤 경우 목표를 달성하기 위해 강화학습(RL)을 사용하는데, AI 에이전트는 좋은 행동에 대한 보상과 나쁜 행동에 대한 대가를 통해 반복적으로 학습한다.

식당에서 메뉴를 선택할 때 인간이 직면하는 고민처럼, AI에이전트들은 더 나은 행동을 발견하는 데 소비되는 시간과 과거에 높은 보상을 초래하는 행동을 취하는 데 소비되는 시간의 균형을 맞추기 위해 고군분투한다. 즉, 호기심이 너무 많으면 에이전트가 올바른 결정을 내리는 데 방해가 될 수 있는 반면, 너무 적다는 것은 에이전트가 올바른 결정을 추론하지 못한다는 것을 의미한다.

여기에, MIT의 불가능한 AI 연구소(MIT’s Improbable AI Laboratory)와 MIT 컴퓨터과학 및 인공지능연구소(Computer Science and Artificial Intelligence Laboratory, CSAIL), 핀란드 알토대학교(Aalto University) 등의 공동연구팀은 AI가 너무 호기심이 많고 주어진 작업에 산만해지는 문제를 극복하는 알고리즘을 개발했다. 이 알고리즘은 필요할 때 자동적으로 호기심을 증가시키고, 에이전트가 환경으로부터 충분한 감독을 받아 무엇을 해야 할지 알게 되면 그것을 억제할 줄 안다.

이미지:MIT
이미지:MIT

연구팀이 60개 이상의 비디오 게임에서 테스트했을 때 이 알고리즘은 어렵거나 쉬운 탐색 작업 모두에서 성공할 수 있었다. 이전의 알고리즘은 어렵거나 쉬운 영역만 가능했다. 특히, 연구팀은 AI 에이전트가 인센티브를 극대화하는 의사 결정 규칙을 학습하는 데 이전보다 더 적은 데이터를 사용했다.

MIT 전기공학 및 컴퓨터과학부(EECS) 교수이자 MIT 불가능한 AI 연구소의 이사로 이 연구를 주도한 풀킷 아그라왈(Pulkit Agrawal) 박사는 "호기심의 심리적 토대의 미묘한 차이를 포괄하는 것은 어렵습니다. 도전을 추구하는 행동의 근본적인 신경 상관관계는 잘 이해되지 않는 현상입니다"라며, "행동을 분류하려는 시도는 우리의 충동, 박탈 민감성, 사회적 및 스트레스 내성을 연구하는 데 이미 깊이 파고들고 있습니다"라고 말했다.

이어 "강화학습을 사용하면 이 프로세스가 감정적으로 정리되고 틀까지 제거되지만 기술적인 면에서는 복잡합니다"라며, "기본적으로 AI 에이전트는 다양한 시도를 할 수 있는 감독이 충분하지 않을 때만 호기심을 가져야 하며, 감독이 있는 경우 호기심을 조정하고 낮추어야 합니다"라고 강조했다.

MIT 불가능한 AI 연구소 연구원이자 MIT 전기공학 및 컴퓨터과학부 박사과정 에릭 첸(Eric Chen) 제1저자는 "새로운 문제에 대해 일관된 우수한 성능을 얻는 것은 매우 어려운 일입니다“라며, "극도로 어려운 문제를 해결하기 위해서는 호기심이 필요하지만 일부 문제에서는 성능이 저하될 수 있습니다.이에 우리는 탐사와 이용의 균형을 조정하는 부담을 없애는 알고리즘을 제안했습니다”라고 말했다.

이어 “예를 들어, 이전에는 문제를 성공적으로 해결하는 데 일주일이 걸렸지만, 이 새로운 알고리즘으로 단 몇 시간 안에 만족할 만한 결과를 얻을 수 있습니다"라고 설명했다.

카네기 멜론대학교(Carnegie Mellon University)의 디팍 파탁(Deepak Pathak) 교수는 연구팀의 이번 연구에 대해 "호기심과 같은 내재적 보상은 에이전트들이 유용한 다양한 행동을 발견하도록 이끄는 데 기본이지만, 주어진 임무를 잘 수행하는 대가를 치러서는 안됩니다"라며, "이것은 AI에서 중요한 문제이며, 연구팀의 이번 연구 성과는 그 절충안을 균형있게 유지할 수있는 방법을 제공한 것입니다"라고 말했다.

이어 "그러한 방법이 게임을 넘어 실제 로봇 에이전트로 어떻게 확장되는지 보는 것은 흥미로울 것입니다"라고 덧붙였다.

한편, 연구팀의 이번 연구는 오는 28일부터 12월 9일까지 미국 루이지애나 뉴올리언스에서 개최되는 2022신경정보처리시스템학회(Conference on Neural Information Processing Systems, NeurIPS 2022)에서 ‘제한된 최적화를 통한 본질적 보상 실현(Redeeming Intrinsic Rewards via Constrained Optimization-다운)’란 제목으로 발표될 예정이다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지