[AI 리뷰] 인공지능 모델에서 '합성 데이터'는 실제 데이터보다 더 높은 성능과 안전성을 부여합니다!

합성 데이터에 대해 학습된 AI 모델은 경우에 따라 다른 모델보다 더 정확할 수 있으며, 실제 데이터를 사용하는 데 따르는 개인 정보 보호, 저작권 및 윤리적 문제를 해결할 수 있다.

인공지능이 인간의 행동을 인식하도록 가르치는 것은 건설 현장에서 안전구역을 벗어나거나 낙상하는 작업자를 자동으로 감지하거나 스마트 홈 로봇이 사용자의 제스처를 해석하도록 하는 것과 같이 많은 잠재적인 응용 프로그램이 있다.

이를 위해 연구자 및 개발자들은 인간이 행동을 인식하고 수행하는 것을 보여주는 방대한 비디오 클립 데이터 세트를 사용하여 머신러닝(ML) 모델을 학습시킨다. 그러나 수백만 또는 수십억 개의 비디오를 수집하고 레이블을 지정하는 데는 비용이 많이 들고 힘들 뿐만 아니라 클립에는 사람의 얼굴이나 자동차 번호판과 같은 민감한 정보가 포함되기도 한다.

또한, 이러한 비디오와 이미지를 무단 사용하면 저작권 또는 개인정보호법을 위반할 수도 있다. 이것은 비디오 데이터가 처음부터 공개적으로 사용 가능하다고 가정하지만 특정 데이터 세트는 임의대로 사용할 수 없다.

이에 기업과 개발자들은 대안으로 합성 데이터 세트로 눈을 돌리고 있다. 이는 장면, 물체 및 인간의 3D 모델링을 통해 실제 데이터와 함께 제공되는 잠재적인 저작권 문제나 윤리적 문제없이 저렴한 비용으로 인간의 특정 동작이나 행동 등 다양한 클립을 신속하게 생성하는 컴퓨터에 의해 대규모로 만들어진다.

그러나, 이 합성 데이터가 실제 데이터처럼 '좋은' 데이터입니까? 그리고, 이러한 데이터로 훈련된 AI 모델은 실제 인간 행동을 분류하라는 요청을 받았을 때 얼마나 잘 수행됩니까? 란 의구심을 떨쳐버릴 수가 없는게 사실이다.

이런 과제에 MIT와 MIT-IBM 왓슨 인공지능 랩(MIT-IBM Watson AI Lab) 및 보스턴대학교(Boston University) 등의 공동연구팀은 머신러닝 모델을 훈련하는 데 사용하는 광범위한 인간 행동을 캡처한 150,000개의 비디오 클립으로 구성된 합성 데이터 세트를 구축했다. 그런 다음, 모델에 실제 비디오의 6개 데이터 세트를 보여 주어 해당 클립의 동작을 인식하는 방법을 얼마나 잘 학습할 수 있는지 확인했다.

그 결과 연구팀은 합성된 데이터로 훈련된 모델이 배경 객체가 더 적은 비디오에 대해 실제 데이터로 훈련된 모델보다 훨씬 더 나은 성능을 발휘한다는 것을 확인했다. 즉, 실제 작업에서 실제 데이터 세트 사용에 대한 윤리적, 개인 정보 보호 및 저작권 문제를 해결하고 모델이 더 높은 정확도를 달성하는 합성 데이터 세트를 사용하는 것이 대안이 될 수 있었다고 밝혔다.

로제리오 페리스 박사는 MIT-IBM Watson AI Lab의 수석 과학자이자 연구 관리자이다. 그는 워싱턴 대학에서 교수로, 컬럼비아대학에서 겸임 교수로 근무했으며, 현재 100편 이상의 기술 논문을 저술했으며 컴퓨터 비전, 멀티미디어 및 기계 학습 분야에서 40건 이상의 특허를 보유하고 있다.(사진:MIT-IBM 왓슨 인공지능 랩

MIT-IBM 왓슨 인공지능 랩의 연구관리자(Research Manager) 겸 수석 과학자로 이 연구를 주도한 로제리오 페리스(Rogerio Feris) 박사는 “우리 연구의 궁극적인 목표는 실제 데이터 학습을 합성 데이터 학습으로 대체하는 것입니다. 합성 데이터를 생성하는 데는 비용이 들지만 일단 완료되면 포즈, 조명 등을 변경하여 이미지나 동영상을 무제한으로 생성할 수 있습니다. 이것이 합성 데이터의 장점입니다”라고 말했다.

합성 데이터 세트 구축

연구팀은 인간의 행동을 포착한 합성 비디오 클립의 공개적으로 사용 가능한 3개의 데이터 세트를 사용하여 새로운 데이터 세트를 컴파일 하는 것으로 시작했다. '합성 액션 사전 훈련 및 전송(Synthetic Action Pre-training and Transfer, SynAPT-다운)'라고 하는 데이터 세트에는 150개의 작업 범주와 범주당 1,000개의 비디오 클립이 포함되어 있다.

연구팀은 양질의 비디오 데이터가 포함된 클립의 가용성에 따라 사람들이 손을 흔들거나 동작을 취하거나 바닥에 떨어지는 등의 가능한 많은 동작 범주를 선택했다. 데이터 세트가 준비되면 이를 사용하여 3가지 머신러닝 모델을 사전 학습시켜 동작을 인식했다.

사람들이 학습하는 방식에서 영감을 받아 새로운 것을 학습할 때 오래된 지식을 재사용한다. 이처럼 사전 학습된 모델은 이미 학습한 매개변수를 사용하여 새로운 데이터 세트로 새로운 작업을 더 빠르고 효과적으로 학습할 수 있다.

합성데이터 플랫폼 '카멜레온'이 구현한 데이터 샘플(이미지:본지 보도 기사 캡처)

그들은 실제 비디오 클립의 6개 데이터 세트를 사용하여 사전 훈련된 모델을 테스트했으며, 각각은 훈련 데이터의 것과 다른 동작 클래스를 캡처했다. 특히, 연구팀은 3개의 합성 모델이 모두 6개의 데이터 세트 중 4개의 데이터 세트에서 실제 비디오 클립으로 훈련된 모델을 능가한다는 사실에 놀랐다고 한다.

로제리오 페리스 박사는 "낮은 장면-객체 편향(low scene-object bias)이 있는 비디오 클립이 포함된 데이터 세트에서 정확도가 가장 높았습니다. 낮은 장면 개체 편향은 모델이 장면의 배경이나 다른 개체를 보고 동작을 인식할 수 없음을 의미합니다"라며, "즉, 동작 자체에 초점을 맞춰야 합니다"라고 말했다.

장면-객체 편향이 낮다는 것은 모델이 장면의 배경이나 다른 객체를 보고 동작을 인식할 수 없다는 것을 의미한다. 즉, 동작 자체에 초점을 맞춰야 한다. 예를 들어, 모델이 수영장에 다이빙하는 사람들의 비디오에서 다이빙 포즈를 분류하는 임무를 맡는다면, 그것은 물이나 벽에 있는 타일을 보고 포즈를 식별할 수 없다. 그것은 행동을 분류하기 위해 그 사람의 움직임과 위치에 초점을 맞춰야 한다.

이어 페리스 박사는 "장면-객체 편향이 낮은 비디오에서는 객체의 모양이나 배경보다 동작의 시간적 역 동성이 더 중요하며 합성 데이터로 잘 포착 된 것 같습니다"라고 덧붙였다. 여기에, 이 연구의 주 저자 MIT-IBM 왓슨 인공지능 랩 김요환(Yo-whan Kim) 연구원은 “높은 장면-객체 편향(High scene-object bias)은 실제로 장애물로 작용할 수 있습니다”며, “모델은 행위 자체가 아니라 객체을 보고 행위를 잘못 분류할 수 있어 모델을 혼란스럽게 할 수 있다는 것입니다“라고 부연했다.

이번 연구의 공동 저자인 MIT-IBM 왓슨 인공지능 랩 진소영 박사후 연구원은 컴퓨터 비전, 특히 비디오 이해 기술을 개발하고 개선하는 데 관심이 많다. 동국대학교에서 학사, KAIST에서 석사, 매사추세츠대학교 전기공학 및 컴퓨터공학과에서 박사 학위를 받았다.(사진:MIT-IBM 왓슨 인공지능 랩)

한편, 이번 연구는 MIT 및 MIT-IBM 왓슨 인공지능 랩 김요환 연구원이 주 저자로, MIT-IBM 왓슨 인공지능 랩의 수석 과학자 로제리오 페리스 박사, 진수영(SouYoung Jin) 박사후 연구원을 공동 저자로 포함한 10명의 공동연구팀은 오는 11월 28일부터 12월 9일까지 미국 루이지애나 뉴올리언스에서 개최되는 2022 신경정보처리시스템학회(Conference on Neural Information Processing Systems, NeurIPS 2022)에서 'How Transferable are Video Representations Based on Synthetic Data?-다운)'란 제목으로 발표될 예정이다.

최창현 기자 aitimes@naver.com

다른기사 보기

상단영역

본문영역

[AI 리뷰] 인공지능 모델에서 '합성 데이터'는 실제 데이터보다 더 높은 성능과 안전성을 부여합니다!

합성 데이터에 대해 학습된 AI 모델은 경우에 따라 다른 모델보다 더 정확할 수 있으며, 실제 데이터를 사용하는 데 따르는 개인 정보 보호, 저작권 및 윤리적 문제를 해결할 수 있다.

기사 댓글 0

비회원 로그인