실제 비즈니스에 강화학습을 손쉽게 적용할 수 있는 방법 발명

강화학습에서 가장 어려운 부분인 보상 함수 구성 획기적으로 간소화 가능

애자일소다(대표이사 최대우)는 20일, 기업의 비즈니스에 강화학습을 적용하는 데 활용할 수 있는 ‘데이터 기반 강화 학습 장치 및 방법’ 관련 국내 특허를 취득했다고 밝혔다.

강화학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트(agent)를 다루는 머신러닝의 한 분야로, 자율주행, 로봇제어, 게임 분야에 많이 사용되는 기술이다. 강화학습의 특징은 행동의 주체인 에이전트가 어떤 행동을 해야 더 많은 보상(reward)을 받을지 알아내는 것을 목적으로 한다. 따라서 보상을 어떻게 책정하느냐에 따라 학습 결과에 크게 영향을 미치므로 이 부분이 강화학습 프로젝트의 핵심이라고 볼 수 있다.

게임과 같은 경우는 게임 점수라는 명확한 보상이 제시되어 있지만, 비즈니스 환경은 사업목적에 맞는 보상체계를 정하기가 용이하지 않기 때문에 매번 사업목적에 부합하는 보상 설정을 반복하면서 실험해야만 하는 어려움이 있었다. 분석가들은 최적의 모델을 개발하기 위해 임의로 보상 점수를 부여하며 학습 결과를 보며 재조정하는 수 많은 시행착오 과정이 필요했다.

애자일소다 측은 다양한 기업 프로젝트를 경험하며 이런 어려움을 개선하고자 연구한 끝에 ‘기업의 목표와 성과를 일치(Align)시킬 수 있는 보상 함수 알고리즘’을 개발, 실제 프로젝트를 통해 가능성을 입증하며 이에 대한 특허를 획득하게 되었다고 전했다. 이를 통해 분석가들은 매번 새로운 목표에 맞는 보상 설정에 필요한 시간과 공수를 획기적으로 단축시킬 수 있게 될 전망이다. 뿐만 아니라 반복적인 학습-재조정 과정에 필요한 대규모 컴퓨팅 리소스도 절약할 수 있어 그에 따른 비용 또한 대폭 절감할 수 있을 것으로 기대된다.

애자일소다 최대우 대표는 “이번 특허의 기술은 머지않아 출시 예정인 강화학습 솔루션(솔루션명:베이킹소다)에 적용될 예정이다. 기업 의사결정 최적화에 강화학습 기술의 가능성을 내다보던 기업들의 선도적 분석가들에게 강화학습 도입을 적극적으로 검토하는 계기가 될 것으로 본다.”며 “앞으로도 애자일소다는 강화학습의 비즈니스 적용에 지속적인 관심을 갖고 연구해 나갈 계획이며 추가적인 국내외 특허 출원도 준비하고 있다.”고 밝혔다

저작권자 © 인공지능신문 무단전재 및 재배포 금지