물리학의 온도 개념이 인공지능 강화학습에 도입되어 사용하는 원리

필자 강신동은 한국산업기술대학 컴퓨터공학과 겸임교수와 서울시 IoT 추진 기술전문위원, 한국건설기술연구원 연구기획위원 등을 역임했으며, 현재 ㈜지능도시 설립자/대표이자 Smart Beam forum 설립 및 운영자로 활동하고 있다.
필자 강신동은 한국산업기술대학 컴퓨터공학과 겸임교수와 서울시 IoT 추진 기술전문위원, 한국건설기술연구원 연구기획위원 등을 역임했으며, 현재 ㈜지능도시 설립자/대표이자 Smart Beam forum 설립 및 운영자로 활동하고 있다.

실제 물리적인 환경이 아닌 상상속의 세계인 인공지능 계산 모델(AI model) 에서, 온도 파라미터(temperature parameter) 가 자주 등장한다.

바둑에서 인간의 기보를 이용하여 학습을 초기에 시키지 않고, 인간의 바둑 기보를 전혀 주지 않고 학습을 진행하여 이세돌을 이긴 알파고(AlphaGo)를 넘어서서 비교도 안되게 이를 뛰어넘은 알파고 제로(AlphaGo Zero)가 있다. 알파고 제로는 인간이 도저히 이길 수 없는 수준에 도달하여 인간과의 대결은 의미가 전혀 없어져서 이미 은퇴한 상태이다.

순전히 스스로의 경험에 의해서 바둑 두는 법을 익히는 알파고 제로는 경험을 효율적으로 축적하는 것이 매우 중요하다. 이 경험을 스스로 축적하여 학습을 하는 것을 강화학습(RL, Reinforcement Learning)이라고 한다.

경험상 최고 점수를 거둘 수 있는 길로 더 가볼 것인가, 아니면 새로운 길로도 가볼 것인가를 효율적으로 잘 선택하는 것은 학습의 성공에 매우 중요한 정책이며, 경험상 좋은 길로 갈 것인가 경험하지 못해본 새로운 길을 가볼 것인가를 어느 정도로 행동을 분배할 것인가의 정책이 행동 확률 분포(action probability distribution) 정책이다.

이러한 중요한 행동 확률 분포 정책을 정하기 위해서, 재미있게도 물리학의 온도 개념이 사용되고 있다.

딥러닝(deep learning) 모델이나 강화학습 모델의 내부에 온도가 있을리 만무하지만 온도라는 단어를 도입하여 사용한다.

많은 분야에서 사용하는 용어는 물리학의 개념에서 차용되는 경우가 많다.

사람이 살아가는 실질적인 물리적인 환경을 추상화한 물리학의 용어는 가상적인 세계에 대해서도 그나마 직관적으로 실체화하는데 도움이 될 수 있다.

딥러닝이나 강화학습 등의 AI 분야에서 사용하는 온도는 맥스웰-볼쯔만 (Maxwell-Boltzmann) 분포 특성에서 가져온 것이다.

맥스웰 볼쯔만 분포는 온도에 따른 기체 분자의 속도 분포에 대한 것이다. 기체 분자 상호간의 작용이 무시되는 헬륨이나 네온 같은 비활성 기체의 운동 속도 분포에 맞다.

개념을 직관적으로 이해하기 위해서는 그냥 물(water)을 생각하면 좋다.

온도가 높을 수록 분자 속도의 분포가 넓고 다양하다. (이미지 출처: nature.com)
온도가 높을 수록 분자 속도의 분포가 넓고 다양하다. (이미지 출처: nature.com)

액체질소 같은 아주 낮은 온도로 물을 얼리면, 얼음속의 각각의 물 분자는 대부분 말 그대로 얼어 버려서 모두 멈추어 있게 된다. 그 중에 극소수 몇개의 물 분자는 약간 운동하는 놈들도 있을 것이다.

매우 낮은 온도로 꽁꽁언 얼음 속의 각각의 물 분자는 거의 대부분 속도가 0일 것이며, 극히 일부분 극소수의 몇개 분자만이 속도가 0이 아닌 상태일 것이다.

온도를 올려서 0도 까지 올리면, 매우 낮은 온도로 꽁꽁 얼어 있던 얼음에 비해서 얼음 속의 분자들은 다양한 속도를 가진다. 그리고, 그 중 일부분의 분자는 액체 물로 존재할 만큼 속도가 빠른 놈들도 존재한다.

0 도의 물은 고체 얼음으로 제자리에서 약하게 진동하는 분자도 있고, 일부는 빠르게 움직이며 액체 상태의 물 분자도 있는 다양한 속도를 가진 물 분자들이 동시에 존재한다.

물 분자의 각각의 속도를 가진 분자를 강화학습 과정에서 선택할 수 있는 행동(action)의 종류들로 본다면, 온도가 높은 경우에는 선택할 수 있는 행동의 종류가 다양하게 넓은 분포를 가진다.

온도가 낮은 경우에는 행동이 다양하지 않고 선택할 수 있는 선택지가 좁게 된다.

강화학습의 초기에는 온도를 높여서 다양한 탐험을 하여 경험을 높이고, 강화학습의 마무리 단계에서는 온도를 낮추어서 선택할 수 있는 행동의 종류를 줄이고 경험상 좋은 방향의 행동에 집중하게 만들어서 강화학습의 학습 성능을 높이게 한다.

이와 같이, 물리학에서 매우 중요한 인자인 온도 개념은 물리와 관련 없을 것 같은 추상적인 곳에서도 물리학의 온도 개념을 도입하여 많은 발전을 이루고 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지