심층 학습의 핵심 기술인 배치 선택(batch selection)의 새로운 접근법을 제시... 예측정확도와 훈련 속도는 각각 최대 21% 및 59% 향상돼, 국제학술대회 ‘ACM CIKM 2020’에서 23일 발표 예정

이재길 교수는 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 딥러닝 라이브러리에 추가되면 머신러닝 및 딥러닝 분야에 큰 파급효과를 낼 수 있다ˮ고 말했다.
이재길 교수는 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 딥러닝 라이브러리에 추가되면 머신러닝 및 딥러닝 분야에 큰 파급효과를 낼 수 있다ˮ고 말했다.

최근, 딥러닝의 비약적인 발전으로 다양한 응용에서 기계 학습의 성능을 크게 앞지르고 있다.

딥러닝에서 다루는 심층신경망(DNN)은 높은 표현력으로 높은 정확도를 달성할 수 있지만, 그로 인해 최적의 성능을 얻기 위한 학습 과정도 더욱 복잡해지고 어렵게 되었다. 심층 학습 모델을 학습하는 과정은 반복적으로 모델의 매개변수를 최적화하는 단계로 이루어진다.

또 반복마다 훈련 데이터로부터 일부(예: 32개) 데이터를 선정하여 최적화에 사용하며, 이처럼 선정된 데이터 샘플을 배치(batch)라 부른다. 무작위로 배치를 선택할 경우 최고 정확도가 항상 보장되지 않음이 알려져 있다. 따라서 최근 들어 더 나은 배치 선택 방법에 관한 연구가 인공지능(AI) 학계에서 활발히 진행되고 있다.

딥러닝에서 핵심 기술은 주어진 훈련 데이터로부터 예측정확도를 최대화한 모델을 빠르게 구축하는 것이다. 이에 국내 연구진 KAIST(총장 신성철)는 전산학부 이재길 교수 연구팀이 딥러닝 모델의 예측정확도와 훈련 속도가 대폭 향상된 새로운 모델 학습 기술을 개발했다고 20일 밝혔다.

연구팀에서 개발한 Recency Bias의 동작 개념도. 심층 신경망을 통해 학습 데이터에서 예측 불확실성을 계산하고, 이 값이 특정 임곗값을 넘으면 배치에 포함되어 심층 신경망의 학습에 활용된다. 무작위 샘플링에 비해 예측 불확실성에 근거한 샘플링이 예측 정확도와 훈련 시간을 크게 개선함을 실험을 통해 입증했다.
연구팀에서 개발한 Recency Bias의 동작 개념도. 심층 신경망을 통해 학습 데이터에서 예측 불확실성을 계산하고, 이 값이 특정 임곗값을 넘으면 배치에 포함되어 심층 신경망의 학습에 활용된다. 무작위 샘플링에 비해 예측 불확실성에 근거한 샘플링이 예측 정확도와 훈련 시간을 크게 개선함을 실험을 통해 입증했다.

일반적으로 딥러닝 모델을 학습하는 과정은 반복적으로 모델의 매개변수를 최적화하는 단계로 이뤄진다. 이재길 교수 연구팀이 개발한 기술은 심층 학습 모델의 학습 진행 상황에 맞게 최적의 배치를 구성하도록 하는 기술이다. 이 연구 및 개발에는 KAIST 지식서비스공학대학원에 재학 중인 송환준 박사과정 학생이 제1 저자로, 김민석 박사과정 학생과 김선동 박사가 각각 제2, 제3 저자로 각각 참여했다.

배치 선택에서는 현재 모델 학습 단계에 가장 도움이 되는 데이터를 효과적으로 선택해야 한다. 도움이 될지를 판단하기 위해 이재길 교수팀이 개발한 방법은 해당 데이터에 대한 이전 추론 결과를 활용한다.

단계별 추론단계에서 결과가 매우 일관적일 경우, 해당 데이터가 너무 쉬어 계속 맞추거나 반대로 너무 어려워 전혀 맞추지 못한다고 볼 수 있다. 다시 말하자면 이러한 데이터는 결코 도움이 되지 않는 데이터라 할 수 있다. 반대로 최근 몇 단계에서의 추론 결과가 그다지 일관적이지 않다면 해당 데이터에 대한 추론이 혼동되고 있다는 뜻이므로 현재 시점에서 꼭 필요한 데이터이다.

연구팀에서 개발한 Recency Bias에서 불확실성을 계산하는 방식. 두 장의 `말' 이미지에 대해 모두 학습 초반에는 예측 결과가 일관적이지 않다가 최근 시점에는 일관적으로 맞추거나 틀리게 되었다. 전체 훈련 기간으로 보면 두 이미지 모두 예측 결과가 일관적이지 않아 예측 불확실성이 높다. 하지만 최근 기간만 보면 각 이미지는 너무 쉽거나 너무 어려운 데이터로 현재 학습에 큰 도움이 되지 않는다. 따라서 Recency Bias는 이들 이미지를 배치에 포함하지 않는다.
연구팀에서 개발한 Recency Bias에서 불확실성을 계산하는 방식. 두 장의 `말' 이미지에 대해 모두 학습 초반에는 예측 결과가 일관적이지 않다가 최근 시점에는 일관적으로 맞추거나 틀리게 되었다. 전체 훈련 기간으로 보면 두 이미지 모두 예측 결과가 일관적이지 않아 예측 불확실성이 높다. 하지만 최근 기간만 보면 각 이미지는 너무 쉽거나 너무 어려운 데이터로 현재 학습에 큰 도움이 되지 않는다. 따라서 Recency Bias는 이들 이미지를 배치에 포함하지 않는다.

이번 연구 결과는 데이터 처리 및 분석 분야의 국제 저명학술대회인 ‘국제컴퓨터학회 정보지식관리 컨퍼런스(ACM CIKM: Association of Computer Machinery International Conference on Information and Knowledge Management) 2020’에서 '카르페 디엠, 적응형 배치 선택을 위해 "한순간에" 불확실한 샘플 포착Carpe Diem, Seize the Samples Uncertain "at the Moment" for Adaptive Batch Selection)'이란 제목으로 23일 발표된다.

논문 제목에 있는 `카르페 디엠(Carpe diem)'은 호라티우스의 라틴어 시 한 구절로부터 유래했고 영화 `죽은 시인의 사회'에서 인용돼 유명해졌다. 보통 `현재를 잡아라(Seize the day)'로 번역되는데 가장 최근 몇 단계인 현재의 추론 결과가 불확실한 데이터를 선택하도록 설계된 제안 방법론의 철학을 잘 설명한다고 판단해 연구팀은 논문 제목에 이를 이용했다.

연구팀은 새로 개발한 배치 선택 방법론을 `최신 편향(Recency Bias)'이라고 이름을 붙이고 이미지 데이터에 널리 활용되는 다양한 합성 곱 신경망(CNN)의 학습에 적용했다. 그 결과, 기존 방법론 대비, 예측정확도(이미지 분류 문제)에서 최대 21% 오류를 감소시키는 한편 훈련 속도(심층 신경망 미세 조정 문제)에서는 최대 59% 시간을 단축했다.

한편, 제 1 저자인 송환준 박사과정 연구원은 "이번 연구는 심층 학습의 핵심 기술ˮ 이라면서 "다양한 심층 신경망에 폭넓게 적용할 수 있어 심층 학습의 전반적인 성능 개선에 기여할 것ˮ이라고 밝혔다. 연구팀을 지도한 이재길 교수도 "이 기술이 텐서플로우(TensorFlow) 혹은 파이토치(PyTorch)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있다ˮ고 기대했다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지