강화학습은 무엇이며, 통제 문제를 해결할 때 왜 고려해야 하는가? 강화학습 문제를 어떻게 설정하고 해결해야 하는가? 전통적인 통제 접근법에 비해 강화학습의 이점과 단점은 무엇인가? 라는 과제를 해결해 준다.

환경 및 보상(Reward) 이해, 정책 및 학습 알고리즘, 2 족 로봇이 보행하는 방법, 강화학습에서 실제 과제 극복 등(사진:본지)

강화학습(Reinforcement learning)은 인공지능 머신러닝의 한 유형이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상(Reward)을 최대화 하는 행동 혹은 행동 순서를 선택하는 방법이다.

이 학습 방식을 통해 컴퓨터는 사람의 개입없이 그리고 과제를 달성하기 위해 명시적으로 프로그래밍 하지 않고도 과제에 대한 보상 지표를 최대화하는 일련의 결정을 내릴 수 있다. 또 신경 과학적 관점에 중점을 두어 에이전트가 환경을 어떻게 최적화 할 수 있는지에 대한 설명을 제공한다.

이러한 문제는 매우 포괄적이기 때문에 시뮬레이션 기반 최적화, 다중 에이전트 시스템 등과 로봇, 게임, 제어, 통계학, 유전학, 신약개발 등 다양한 분야에서 최근 그 적용을 확대하고 있다.

강화학습 워크 플로우를 사용하여 2 족 로봇을 보행하는 방법을 보여주며, 기본 예제를 수정하여 참조 신호를 추가하여 기존 제어 문제를 설정하는 방법과 비슷하게 보이도록 하는 방법과 RL 장착 에이전트가 엔드 투 엔드 설계가 아닌 기존 제어 시스템의 일부를 대체할 수 있는 방법을 설명한다.(사진:아래 4부 영상 캡처)
강화학습 워크 플로우를 사용하여 2 족 로봇을 보행하는 방법을 보여주며, 기본 예제를 수정하여 참조 신호를 추가하여 기존 제어 문제를 설정하는 방법과 비슷하게 보이도록 하는 방법과 RL 장착 에이전트가 엔드 투 엔드 설계가 아닌 기존 제어 시스템의 일부를 대체할 수 있는 방법을 설명한다.(사진:아래 4부 영상 캡처)

이처럼 전통적인 기술로 해결하기가 어려운 제어 시스템 문제를 해결할 수 있는 엄청난 잠재력을 가진 강화학습에 대해 매스웍스의 매트랩을 이용한 웨비나 시리즈로 잘 정리된 5부작을 통해 강화학습의 기본 사항과 전통적인 제어기법과 어떻게 다른지 와 신경망이 왜 알려지지 않은 기능을 나타내는 데 사용되는지, 그리고 어떻게 그 에이전트가 환경으로부터 보상을 사용하여 그것을 훈련시키는지를 영상을 통해 살펴본다.

아울러 이 매트랩을 이용한 웨비나 시리즈가 끝날 무렵에는 강화학습에 대한 이해와 다음과 같은 세 가지 질문에 대답할 준비가 더 잘 될 것으로 생각된다. ▶강화학습은 무엇이며, 통제 문제를 해결할 때 왜 고려해야 하는가? ▶강화학습 문제를 어떻게 설정하고 해결해야 하는가? ▶전통적인 통제 접근법에 비해 강화학습의 이점과 단점은 무엇인가?

1부, 강화 학습이란?

2부, 환경 및 보상(Reward) 이해: 워크플로를 탐색하여 강화학습에 대한 기본적인 이해와 환경이 무엇인지, 시뮬레이션 환경 내에서 훈련의 이점 중 일부를 다룬다. 궁극적으로 에이전트가 원하는 것과 보상 기능을 만드는 것이 에이전트가 그 일을 하도록 인센티브를 주는 방법, 즉 에이전트의 의사 결정 부분을 구성하는 매개 변수와 논리를 구성하는 방법을 소개한다.

3부, 정책 및 학습 알고리즘: 에이전트 내에 있는 알고리즘에 대한 소개와 기능을 나타내기 위해 신경망을 사용하는지, 그리고 왜 두 개의 신경망을 설정해야 하는지를 보여준다.

4부, 2 족 로봇이 보행하는 방법: 강화학습 워크 플로우를 사용하여 2 족 로봇을 보행하는 방법을 보여주며, 기본 예제를 수정하여 참조 신호를 추가해 기존 제어 문제를 설정하는 방법과 비슷하게 보이도록 하는 것, 그리고 RL 장착 에이전트가 엔드 투 엔드 설계가 아닌 기존 제어 시스템의 일부를 대체할 수 있는 방법을 설명한다. 

5부, 강화학습에서 실제 과제 극복: 프로덕션 시스템에 강화학습을 사용할 때 발생하는 몇 가지 문제를 해결하고 이를 완화할 수 있는 몇 가지 방법을 제시한다. 또 직면하게 될 몇 가지 과제를 해결하는 방법이 없더라도 최소한 그것에 대한 대응과 강화학습을 사용하여 전통적인 제어 시스템의 매개 변수를 배우는 방법 등을 보여준다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지