AI 강화학습... 로봇은 사람이 보여주는 것으로 티칭없이 사람처럼 일한다
AI 강화학습... 로봇은 사람이 보여주는 것으로 티칭없이 사람처럼 일한다
  • 최창현 기자
  • 승인 2020.03.08 08:45
  • 댓글 0
이 기사를 공유합니다

로봇은 인간의 행동을 관찰함으로써 식탁을 차리는 것과 같은 복잡한 일을 수행하는 법을 배운다
'불확실한 스펙을 가진 계획 수립(Planning with Uncertain Specifications, PUNS)' 시스템으로 로봇은 티칭없이 사람이 하는 것을 보고 사람처럼 일한다(사진:MIT)

티칭없이 로봇에게 집안일을 하는 방법을 보여주는 것으로 로봇은 인간의 행동을 관찰함으로써 식탁을 차리는 것과 같은 복잡한 일을 수행하는 법을 배운다.

아주 가까운 미래에는 이 인터랙티브 로봇을 훈련시키는 것은 프로그래밍 전문지식이 없는 사람들 모두에게 쉬운 일이 될 수 있을 것이다.

로봇공학자들은 로봇이 인간만을 관찰함으로써 새로운 과제를 배울 수 있는 자동화된 로봇을 개발하고 있다. 아주 가까은 미래에 집에서, 가정용 로봇에게 일상적인 집안일을 하는 방법을 가르치고 직장에서는 신입사원처럼 로봇을 훈련시켜 여러 가지 임무를 수행하는 방법을 보여줄 수 있는 것이다.

MIT 연구팀은 이러한 유형의 로봇들이 복잡한 작업을 배울 수 있도록 하는 '불확실한 스펙을 가진 계획 수립(Planning with Uncertain Specifications. 이하, PUNS)' 시스템을 개발했다. 그러한 과제 중 하나로 특정한 조건 하에서 저녁 식탁을 차리는 것이다.

그 핵심에서 PUNS 시스템은 로봇에게 최종 목표에 도달하기 위한 많은 모호하고 잠재적으로 모순되는 요구 사항을 동시에 가름할 수 있는 인간적인 계획 능력을 제공한다. 그렇게 함으로써, 시스템은 항상 수행해야 할 과제에 대한 몇 가지 가능한 사양에 대한 신뢰를 바탕으로 가장 가능성이 높은 조치를 선택한다.

연구팀은 머그잔, 유리잔, 숟가락, 포크, 나이프, 큰 접시, 작은 접시, 그릇 등 8개의 식기가 어떻게 다양한 구성으로 테이블 위에 놓일 수 있는지에 대한 정보를 가지고 데이터 세트를 작성했다. 로봇 팔은 먼저 무작위로 선택된 인간 시연을 관찰하여 대상과 함께 테이블을 설정했다. 그런 다음, 연구원들은 팔에 특정 구성과 실제 실험 및 시뮬레이션에서 본 것을 기반으로 테이블을 자동으로 설정하도록 임무를 부여했다.

로봇이 테이블에 식기를 세팅하고 있는 모습(사진:영상캡처)
로봇이 테이블에 식기를 세팅하고 있는 모습(사진:영상캡처)

성공하기 위해 로봇은 아이템을 의도적으로 제거하거나 쌓거나 숨길 때에도 가능한 많은 배치 순서를 따져봐야 했다. 보통, 이 모든 것은 로봇을 너무 혼란스럽게 할 것이다. 그러나 이 연구자들의 로봇은 서로 다른 구성으로 테이블을 설정하도록 요청하는 시뮬레이션에서는 20,000 번의 시도 중 단 6 번의 실수만 있었으며, 실제 시연에서는 실수 없이 인간이 작업을 수행하는 방식과 유사한 동작을 보여주었다.

MIT 항공우주학과(AeroAstro)와 인터랙티브 로봇그룹(Interactive Robotics Group)의 박사과정이자 이번 연구 논문의 제 1저자인 안키트 샤(Ankit Shah)는 "프로그래밍을 엔지니어에게 코드를 추가하라는 명령을 기술하기보다는 직관적인 방법으로 로봇을 프로그래밍할 수 있는 도메인 전문가들의 손에 맡기는 것이 비전"이라며, “그러면 로봇은 더 이상 미리 프로그램된 작업을 하지 않아도 됩니다. 공장 직원들은 로봇에게 여러 가지 복잡한 조립 작업을 하도록 가르칠 수 있으며, 가정용 로봇은 캐비닛을 쌓거나 식기세척기를 사용하거나 집에서 식탁을 차리는 방법 등을 배울 수 있다."고 밝혔다.

이 연구의 논문은 지난달 25일 아카이브를 통해 발표됐다. 안키트 샤외 MIT 항공우주학과(AeroAstro)와 인터랙티브 로봇그룹 션 리(Shen Lee) 그리고 인터랙티브 로보틱스 그룹 리더이자 에어로아스트로와 MIT 컴퓨터 과학 및 인공지능 연구소의 줄리 샤(Julie Shah) 부교수가 참여했다.

연구 논문에서는 보상 공학(Reward engineering은) 강화학습에서 높은 성과에 도출하기 위해 매우 중요하며, 보상 디자인에 대한 이전의 연구는 주로 보상을 대표하는 마르코비안(Markovian) 기능에 초점을 맞추고 있다. 또 비마르코프(non-Markov) 보상을 선형 시간 논리(LTL, linear temporal logic) 공식으로 표현하는 연구가 있었지만, 이는 사용자가 직접 정의한 작업 사양에 초점을 맞춘다.

이 시스템은 현재 및 미래의 결과에 대한 로봇 추론을 가능하게 하는 표현 언어 LTL를 기반으로 한다. 연구팀은 LTL에서 템플릿을 정의하여 현재 발생해야 하는 상황과 같은 다양한 시간 기반 조건을 모델링하고 결국 발생해야 하며 다른 일이 발생할 때까지 해야 한다. 표를 설정하기 위한 30 가지 인간 시연에 대한 로봇의 관찰 결과 25 가지 LTL 공식에 대한 확률 분포가 산출했으며 각 수식은 테이블 설정을 위해 약간 다른 기본 설정 또는 사양을 인코딩했다. 그 확률 분포는 곧 그 신념이 되는 것이다.

안키트 샤(Ankit Shah)는“각 공식은 다른 것을 인코딩하지만 로봇이 모든 템플릿의 다양한 조합을 고려하고 모든 것을 만족 시키려고 하면 결국 올바른 일을 하게된다”고 논문을 통해 밝혔다. 더 자세한 내용은 논문 '불확실한 사양을 가진 계획 수립(PUNS, Planning with Uncertain Specifications. 다운)'을 참고하면 된다.(아래는 시연 영상)

한편, 최근 상업용에서 가정용에 이르기까지 다양한 분야의 서비스 로봇과 로봇 관련 솔루션을 지속적으로 개발되고 출시도 잇다르고 있다. 또 그동안 국내외적으로 대표적인 산업에서 성장 전략의 일환으로 자동화를 꼽으며, 그 최전선에 배치된 로봇의 도입과 성과를 높이 평가하고 있다.

로봇은 이제 AI의 융합으로 재무장하고 관련 산업에 극적인 변화를 꾀하고 있다.

독일의 ‘인더스트리 4.0’ 중국의 '중국 제조 2025' 등과 일본의 '인공지능전략회의‘란 범부처 기구를 설립하면서 전세계는 AI 경쟁력 확보와 강화를 위해 박차를 가하고 있으며, AI 기술을 활용한 산업 경쟁력 대책을 내세우고 있다. 세계적인 기류이자 흐름이다. 특히 산업용 로봇에 AI가 활용되면서 다양한 변화가 일어나고 있다.

가장 주목 받고 있는 것은 스스로 학습하고 생산성 향상에 스스로 대응하는 산업용 로봇의 등장일 것이다. 이처럼 극적인 변화를 꾀하는 산업용 로봇이 AI와 융합으로 로봇에 새로운 작업과 기술을 부여하고 단지, 인간의 움직임을 모방하고 스스로 학습하고 스스로 작업하는 것으로 산업현장의 공정과 작업은 매우 빠르고 간편하고, 편리하게 진화될 것으로 예상된다.

로봇에서 인공지능은 숙련 작업자의 감소, 일손 부족과 인건비 상승, 생산성 향상 등의 우리 산업의 전반적인 문제를 해결하는 구세주가 될지도 모른다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.