페이스북 AI, 딥페이크 꼼짝마라!... 100,000개 딥페이크 식별 '데이터 세트' 공개한다
페이스북 AI, 딥페이크 꼼짝마라!... 100,000개 딥페이크 식별 '데이터 세트' 공개한다
  • 최창현 기자
  • 승인 2020.06.14 13:30
  • 댓글 0
이 기사를 공유합니다

전세계 AI 연구진이 새로운 딥페이크 식별 방법을 개발해 이 분야의 첨단기술을 발전시키는 데 도움이 될 것으로 보인다. 게다가, 이 데이터 세트는 딥페이크 작업뿐만 아니라 AI 영역의 다른 연구 작업에도 사용할 수 있도록 개방될 것
사진: 본지 지난해 12월 14일자 'AI 개발자라면 나서보자... 글로벌 '딥페이크 식별 챌린지' 기사 캡처

전 세계적으로 딥페이크(deepfake)에 대한 폐해로 논란이 확산되고 있는 가운데 페이스북이 MS, AWS 그리고 13 개국 100 개 파트너로 결성된 'AI의 미디어 무결성 운영위원회 파트너십(Partnership on AI)'이 공동으로 딥페이크 폐해에서 벗어날 수 있도록 미디어 조작을 식별하고 혁신적인 얼굴 또는 음성 조작된 비디오를 식별하는 새로운 AI 신기술 개발을 촉진하기 위한 '딥 페이크 식별 챌린지(Deepfake Detection Challenge 이하, DFDC)'가 지난해 12월부터 지난 3월 31일까지 총 상금 100만 달러 규모로 개최됐다.

페이스북은 이번 딥페이크 식별 챌린지의 결과를 공유하고 혁신적인 신기술을 창출하여 딥페이크와 조작된 미디어를 탐지하는 데 박차를 가하기 위해 딥페이크 데이터베이스 12일(현지시간) 공개한다고 밝혔다.

이 대회에는 2,114명의 참가자가 총 35,109개의 모델이 대회에 출품됐다. 이들은 도전을 위해 만들어진 독특한 새로운 데이터 세트를 사용하여 모델을 훈련하고 테스트했다. 페이스북 AI는 대회 결과 진짜 비디오와 딥페이크 비디오를 구별하는 것은 여전히 어려웠으며, 제출된 가짜를 식별하는 모델의 평균 성공률은 70 %였으며, 최고는 83 % 였다고 밝혔다.

논문 캡처
사진: 'DeepFake Detection Challenge 데이터 세트' 논문 캡처

특히, DFDC는 10만개가 넘는 독특한 새 데이터 세트를 만들어 공유함으로써 전 세계 전문가들이 한자리에 모여 딥페이크 탐지 모델을 벤치마킹하고 새로운 접근법을 시도하며 서로의 작업을 통해 배울 수 있도록 했다. 이러한 개방적이고 협력적인 노력은 산업계와 사회가 전반적으로 딥페이크 기술이 제시하는 도전을 충족시키고 모든 사람들이 온라인에서 보는 콘텐츠의 정당성을 더 잘 평가할 수 있도록 도울 것으로 예상된다.

DFDC가 마무리된 현재, 페이스북은 결과에 대한 세부사항을 공유하고 수상자들과 함께 최고 성능의 탐지 모델의 코드를 출시할 수 있도록 돕고 있다. 관련 데이터 세트는 현지시간 14일부터 19일까지 코로나19 펜데믹 영향으로 가상으로 열리는 국제 컴퓨터 비전 및 패턴 인식 학회 2020(IEEE Conference on Computer Vision and Pattern Recognition, CVPR2020)에서 공개된다.

또한 3,500명 이상의 배우와 38.5일 분량의 데이터를 포함하는 DFDC를 구축하는 데 사용되는 원시 데이터 세트를 공개하기 위한 계획에 대한 세부 사항도 공유된다. 이를 통해 전세계 AI 연구진이 새로운 딥페이크 식별 방법을 개발해 이 분야의 첨단기술을 발전시키는 데 도움이 될 것으로 보인다. 게다가, 이 데이터 세트는 딥페이크 작업뿐만 아니라 AI 영역의 다른 연구 작업에도 사용할 수 있도록 개방될 것이라고 밝혔다.

한편, DFDC의 우승자는 글로벌 매핑기업 맵박스(Mapbox)의 머신러닝 엔지니어인 셀림 세이베로프(Selim Seferbekov)로 모델은 새로운 비디오을 포함하여 이전에 볼 수 없었던 10,000 개의 클립 세트에서 테스트할 때 비디오가 65 % 이상의 정확도로 훼손되었는지 여부를 식별할 수 있었다. 현재, 셀림 세이베로프의 DFDC 우승 모델은 깃허브(다운)에 공개돼 있다. 

사진은 이번 챌린지 최종 리더보드의 상위 10개 결과를 보여 주며, 참가자들은 블랙박스 데이터 세트를 사용하여 평가되었다.(사진: 캐글
사진은 이번 챌린지 최종 리더보드의 상위 10개 결과를 보여 주며, 참가자들은 블랙박스 데이터 세트를 사용하여 평가되었다.(사진:캐글 DFDC 캡처)

이번 수상자의 대부분이 지난해 구글 연구원이 개발한 새로운 유형의 콘벌루션네트워크(CNN Convolutional Neural Network)인 이피션트네트(EfficientNets)를 사용했다. CNN은 일반적으로 이미지를 분석하는 데 사용되며 얼굴 감지 또는 물체 인식에 능숙하다. 그러나 특정 지점 이상의 정확도를 향상 시키려면 임시 미세 조정이 필요할 수 있다. 이피션트네트는 보다 체계적인 튜닝 방법을 제공하여 보다 정확한 모델을 보다 쉽게 ​​개발할 수 있다. 그러나 우승자 세이베로프는 이 작업에서 이피션트네트가 다른 신경망을 능가하는 것은 확실하지 않았다고 밝혔다.

이번 챌린지에서는 공공 데이터 세트에서 최고 성능의 모델은 컴퓨터 비전 작업의 일반적인 정확도 측정인 82.56% 평균 정밀도를 달성했다. 그러나 블랙박스 데이터 세트에 대한 참가자를 평가할 때, 최고 성능 모델의 순위는 크게 바뀌었다. 가장 높은 성과를 거둔 참가자는 셀림 세퍼베코프가 입력한 모델이었다. 블랙박스 데이터 세트에 대해 평균 65.18%의 정밀도를 달성했다.

또한 공개 데이터 세트를 사용했을 때 이 모델은 4위를 차지했다. 마찬가지로 블랙박스 환경에 대해 테스트했을 때 2위에서 5위까지였던 다른 우승 모델들도 리더보드에서 낮은 순위를 기록했다(각각 37위, 6위, 10위, 17위). 경쟁은 캐글(Kaggle)에 의해 주도되고 우승자는 개인 시험 세트에 대한 로그 손실 점수를 사용하여 선택되었다. 경쟁과 최종 리더보드에 대한 자세한 내용은 캐글에 확인할 수 있다.

이번 '딥페이크 식별 챌린지' 데이터 세트와 수상 모델에 대한 자세한 내용은 페이스북 AI가 공개한 새로운 논문 'DeepFake Detection Challenge 데이터 세트- (다운)'를 참고하면 된다. 또 이번 대회 관련 공개된 데이터 세트 다운 및 자세한 대회 과정은 캐글(가기)을 참조하면 된다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.