박외진 성균관대 컴퓨터공학과 겸임교수(아크릴 대표), 생성 모델(generative model)적 성격을 갖는 인공지능 모델들을 활용하여 수집된 소량의 데이터를 증강시키는 데이터 증강 기법부터, 소량으로 고품질의 지능을 확보하는 훈련 기법인 원샷러닝, 퓨샷러닝, 제로샷러닝...

그리고 충분한 데이터로 학습이 이루어진 영역의 모델 정보를 활용하는 전이학습과 적극적으로 학습 정보량이 높은 데이터들을 취사선택하여 데이터양과 학습 품질 사이의 관계를 적극적으로 해결해 나가고자 하는 능동 학습 등과 오픈셋 거절 기법까지 데이터는 ‘극복’해야 할 대상으로서 많은 연구 과제들을 인공지능에게 던져주고 있다.

필자는 박외진 성균관대 컴퓨터공학과 겸임교수로 현재, 국내외 감성지능을 선도하고 있는 (주)아크릴 대표이다(사진:본지)
필자는 박외진 성균관대 컴퓨터공학과 겸임교수로 현재, 국내외 감성지능을 선도하고 있는 (주)아크릴 대표이다(사진:본지)

2009년에 작고한 미국 배우 패트릭 스웨이즈(Patrick Swayze)가 주연을 맡아 인기를 모았던 영화 ‘더티댄싱(Dirty Dancing, 1987)’을 기억하는 독자들이 많을지 모르겠다.

이 영화는 OST로도 매우 유명했는데, 여러 삽입곡 중, 필자는 요즘 새삼스럽게 에릭 카멘(Eric Carmen)의 ‘Hungry Eyes’라는 노래가 많이 떠오른다. 아마도 매일 매일 차갑게 피부로 느끼고 있는 ‘data-hungry task’라는 현재 인공지능 패러다임의 한계를 느끼는 일을 하고 있어서라고 말한다면 너무 억지스러운 연결일까.

사실 ‘Data hungry’ 라는 말이 어떤 산업 분야에서 처음 사용되었는지는 확인해 보진 않았으나, 가장 유명한 공개 학술 플랫폼인 아카이브(arXiv)에서 검색해보면 주로 인공지능 관련 논문들에서 사용되고 있는 걸 쉽게 확인할 수 있다.

“관찰된 데이터(knowns, seens)”를 분석하여 어떤 규칙을 찾아내고, 그 규칙을 ‘지능’이라 이름 붙여 “관찰되지 않은 데이터(unknowns, unseens)”들에 대한 대답을 얻고자 하는 ‘욕망의 기술’인 ‘인공지능’이 데이터를 바라보며 느끼는 고민과 구애(求愛)의 메시지로 이 보다 더한 수사(修辭)가 있을까 싶다.

그래서 인공지능 기술이 여는 미래 사회와 산업의 모습은 존귀한 ‘데이터 확보’라는 가치로부터 시작된다는 철학적 가치 하에, 정부는 범국가적 혁신 성장을 위한 전략 사업으로서 ‘데이터 AI 경제 활성화 계획(2019년 ~2023년)’를 발표하였고, DNA(Data, Network, AI) 중심의 역동적 산업 구조 개편의 움직임은 지금도 계속 다양한 사업을 통하여 진행 중이다.

이렇게 춤을 추듯 ‘데이터 굶주림’을 외치는 듯 한 인공지능의 ‘확산 노력’과 데이터 ‘수집 논의’는 짝을 지어 열정적인 모습으로 관련 산업계, 학계라는 무대를 뜨겁게 달궈나가고 있는데, 여기서 잠깐 생각해 볼 것이 있다.

‘Hungry’라는 표현이 일반적 물욕의 대상을 향하지 않을 때, ‘갈구하고(데이터를)’ 있으나, 그 ‘채움’을 통해 도달하고자 하는 2차 욕망으로서의 ‘문제(예를 들면 음성 인식 등)’가 존재하고 있다는 자연스러운 사실이다.

‘Hungry eyes’가 ‘관심’에 대한 갈구를 통해 ‘행복’이라는 상태에 도달하고자 함을 표현한 음악이었던 것처럼, ‘data-hungry task’ 라는 표현 역시 ‘데이터’ 그 자체가 목적임을 표현하고 있는 것은 아니지 않을까. 정교한 음성 인식을 위해 다양한 음성 데이터에 대한 욕망을 갖는 다면, 그건 대화형 인터페이스에 기반한 어떤 서비스가 목적일 것이고, 정밀한 진단을 위해 의료 영상 데이터에 대한 커다란 ‘갈구함’을 갖는 것은 건강한 삶을 지키기 위한 예방 의학 또는 정밀한 맞춤 의료라는 본질적인 욕망을 그 속에 품고 있기 때문이다.

“데이터를 계산하느냐?”...두려움은 직시하면 그 뿐(이미지:본지)

따라서, 데이터에 대한 표상적 1차 욕망으로서 인공지능이 보이고 있는 현재의 모습은, 본질적 2차 욕망을 향한 인공지능의 진정한 가치 실현을 위한 과정이며, 철저하게 수단적인 전략이어야 한다.

바꾸어 말하면, ‘문제’가 정의되지 않은 ‘데이터에 대한 순수한 욕망’은, 아직은 보이지 않는 미래에 새롭게 정의되어 인공지능이 도전할 문제를 대비한다는 높은 가치를 가질 수는 있으나, 그 높은 가치 자체가 말그대로 ‘바램’이 되어 버릴 위험도 있는 것이다.

이러한 현상은 전통적으로 관찰되는 현상을 구성하는 데이터의 형태가 단단하게 정형화되어 있는 산업 영역일수록, 쌓여진 데이터가 드러내는 볼륨과 시간, 노력이라는 부담의 벽이 데이터에 역으로 맞춰진 인공지능 모델을 강압적으로 생성시켜 본질적 욕망인 ‘문제’ 해결에 대한 올바른 접근을 흐리게 할 가능성이 있는데, 그건 어떤 ‘데이터’가 문제 해결에 결정적 영향을 미칠지 현재로서는 알 수 없기 때문이기도 하다.

예를 들어, 온라인으로 판매된 금융 상품에 대해 문제 제기(불완전 판매)를 하는 고객들의 VoC(Voice of Customer)에서, 실제 소비자 보호원 등의 피해 구제 신청 절차로 연결될 가능성을 예측하는 인공지능 모델을 만든다고 할 때, 현재 수집된 데이터(음성, 판매 시간, 녹취 분량, 사용자 텍스트 등)와 그와 동일한 형식으로 새로 수집되는 데이터들에 나타나지 않은 정보들(예: 당시 사회를 흔든 정치, 경제적 이슈나 자연 재해 등)이 사실 가장 큰 영향을 미치는 핵심 정보였다면, 잔뜩 쌓여진 데이터들에 대한 분석 처리만으로 그 사실에 접근하는 것이 가능할까.

데이터에 대한 또 다른 문제는 개발될 인공지능이 접하게 될 상황들을 현 시점에서 모두 예측하는 것은 불가능하다는 자연스로운 실세계의 모습과 관련되어 있다.

예를 들어, 자율 주행 자동차를 위한 인공지능이 실제 도로에서 접하게 될 모든 사물들, 상황들을 현재 훈련에 사용된 데이터들이 모두 담보할 수 없기 때문이다.

이러한 문제를 ‘오픈셋 문제(open set problem)’ 라고 하는데, 오픈셋 문제는 인공지능이 충분한 지능을 갖기 위하여, 일정 수준의 데이터양을 필요로 한다는 ‘data hungry’ 이슈와 더불어 현재의 인공지능이 반드시 극복해야 할 주요 이슈로 해외에서는 이미 많은 연구들이 진행되고 있는 분야이기도 하다.

필요한 만큼 있지도 않으며, 필요한 만큼 모은 다고 해도 그 수집된 현상이 문제를 가릴 수 있어 조심스럽고, 게다가 모든 문제를 담보할 수 없는 데이터 문제는 – 어쩌면 인공 지능에게는 티격 태격하며 서로 성장해 가는 연인 같은 모습으로 보일 지도 모르겠다.

그러나 서로의 이해를 기반으로 관계의 성장이 이루어지며 문제 해결이 진화해 나가는 인간의 정서적 측면을 인공지능과 데이터 사이에서 기대할 수는 없는지라, 결국 ‘욕망의 채움’이 쉽지 않으면, 기술적으로 ‘극복’하는 방법들이 제안되는 것이 첨단 기술 분야의 특성 아니겠는가.

그래서 생성 모델(generative model)적 성격을 갖는 인공지능 모델들을 활용하여 수집된 소량의 데이터를 증강시키는 데이터 증강(data augmentation) 기법부터, 소량으로 고품질의 지능을 확보하는 훈련 기법인 원샷러닝(one shot learning), 퓨샷러닝(few shot learning), 제로샷러닝(zero shot learning).

그리고 충분한 데이터로 학습이 이루어진 영역의 모델 정보를 활용하는 전이학습(transfer learning)과 적극적으로 학습 정보량이 높은 데이터들을 취사 선택하여 데이터양과 학습 품질 사이의 관계를 적극적으로 해결해 나가고자 하는 능동 학습(active learning) 등과 오픈셋 거절(open set rejection) 기법까지 데이터는 ‘극복’해야 할 대상으로서 많은 연구 과제들을 인공지능에게 던져주고 있다.

이러한 상황을 제대로 비유하고 있는 한국 영화 한편의 장면을 소개하며, 이 글을 마치고자 하는데, 인공지능과 무관한 영화들로 글을 열고 닫게 되는 모습이 독자들에게 어떤 느낌일지 지금에서야 궁금해진다.

2011년에 개봉한 김한민 감독의 영화 “최종병기 활”의 마지막 장면에서 주인공이 결연히 읊조린 그 대사는, 현재의 인공지능 산업계에서 ‘데이터’를 바라보는 관점에 대해 필자가 말하고 싶었던 주제를 응축시켜 담고 있는 듯 하여, 지면에 소개하며 글을 마무리 짓고자 한는데, 원래 대사에 있던 단어(‘바람’)를 ‘데이터’로 교체하여 적어 본다.

점점 차가워져 가는 계절처럼, 깊어지는 글로벌 강국들과의 경쟁의 격풍을 과감히 뚫고, 그 리더십의 중심에 단호하게 국내 인공지능이란 이름의 화살이 관통하길 바라는 간절한 마음으로 말이다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지