이 모델은 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다. 또, 데이터를 표현하는 방식을 통합함으로써 다양한 지속 시간, 해상도 및 종횡비에 걸쳐 이전보다 더 넓은 범위의 시각적 데이터에 대해 확산 트랜스포머(Diffusion Transformer)를 훈련시킬 수 있다.

"SORA"라고 적힌 사실적인 구름 이미지 생성 영상 갈무리
AI 영상 생성 모델인 ‘소라'가 "SORA"라고 적힌 사실적인 구름 생성 영상 캡쳐

생성 인공지능(AI) 기술 혁신 속도가 빨라지면서 언어, 이미지를 넘어 동영상(비디오) 개발 경쟁이 달아오르고 있다. 텍스트 입력 시 이미지가 만들어지는 AI는 실사에 가까울 정도로 기술력 수준이 올라왔으나 비디오의 경우, 데이터 확보, 처리속도 등 아직까지 기술적인 난제가 많았다.

여기에, 오픈AI가 텍스트를 입력하면 비디오를 만들어주는 ‘텍스트 투 비디오(Text to Video)’의 혁신적인 AI 영상 생성 모델인 ‘소라(Sora)’를 15일(현지시간) 공개했다.

오픈AI가 이날 공개한 ‘소라’는 프롬프트에 따라 최대 1분 길이의 영상을 즉시 생성해준다. 생생한 감정을 표현하는 매력적인 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성할 수 있다. 모델은 프롬프트에서 사용자가 요청한 내용뿐만 아니라 이러한 내용이 실제 세계에 어떻게 존재하는지 이해한다.

참견하는 고양이 생성 영상 갈무리
참견하는 고양이 생성 영상 갈무리

이 모델은 텍스트 지침만으로 동영상을 생성할 수 있을 뿐만 아니라 기존 정지 이미지를 가져와서 동영상을 생성할 수 있으며, 이미지의 내용을 정확하고 세밀하게 애니메이션화할 수 있다. 이 모델은 기존 동영상을 가져와서 확장하거나 누락된 프레임을 채울 수도 있다.

‘소라’는 확산 모델(Diffusion Model)로, 정적 노이즈처럼 보이는 동영상으로 시작하여 여러 단계에 걸쳐 노이즈를 제거하여 점진적으로 변환하는 방식으로 동영상을 생성하며, 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게 만들 수 있다.

모델에 한 번에 많은 프레임을 미리 파악함으로써 대상이 일시적으로 시야를 벗어나더라도 동일한 상태를 유지하도록 하는 어려운 문제를 해결했으며, GPT 모델과 마찬가지로 소라는 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 구현한다.

특히, 소라는 비디오와 이미지를 패치라고 하는 더 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다. 또, 데이터를 표현하는 방식을 통합함으로써 다양한 지속 시간, 해상도 및 종횡비에 걸쳐 이전보다 더 넓은 범위의 시각적 데이터에 대해 확산 트랜스포머(Diffusion Transformer)를 훈련시킬 수 있다.

‘소라’는 달리(DALL·E) 및 GPT 모델의 과거 연구를 기반으로 한다. 그것은 시각적 훈련 데이터에 대해 매우 설명적인 캡션을 생성하는 것을 포함하는 DALL·E 3의 요약 기술을 사용해 결과적으로, 모델은 생성된 비디오에서 사용자의 텍스트 지시를 더 충실히 따를 수 있다.

생성된 영상은 유튜브, 틱톡 등에서 숏폼(short-form)으로 바로 사용가능한 것이다. 또, 생성된 영상은 교육을 비롯해 대규모 캠페인이나 광고 등의 상업적인 목적으로도 활용될 수 있다.(아래는 OpenAI의 텍스트-비디오 모델 Sora 소개 및 시연 영상으로 '춤추는 캥거루'를 시작으로 타임라인 별 생성된 33개의 데모영상을 볼 수 있다)  

 

반면, 이러한 기술은 논란의 여지도 만만찮다. 기술을 사용함으로써 발생할 수 있는 윤리적 문제와 인간의 창작물을 모방하거나 복제할 때 저작권 문제가 제기될 수 있다. 그러나 가장 큰 문제는 딥페이크(Deepfake) 기술을 통한 위조 영상 생성이다. 이는 윤리적, 정치적, 사회적 문제와 함께 개인 정보 보호 문제로까지 이어질 수 있다.

이에 오픈AI는 Sora를 안전하게 사용할 수 있도록 몇 가지 중요한 조치를 취하는 방법으로 잘못된 정보, 혐오스러운 내용, 편견 등과 같은 분야의 전문가 팀과 협력하여 모델의 지속적인 테스트와 모델에서 비디오가 생성된 시기를 알 수 있는 방법과 함께 오해의 소지가 있는 컨텐츠를 식별하는 데 도움이 되는 도구도 구축하고 있으며, Sora의 일반 출시에서는 미디어 콘텐츠의 출처와 이력을 인증하는 기술 표준을 개발하여 온라인에서 잘못된 정보가 널리 퍼지는 문제를 해결하기 위해 결성된 '콘텐츠 출처 및 진위성을 위한 연합(C2PA, Coalition for Content Provenance and Authenticity-보기)을 위해  메타데이터를 포함할 계획이라고 밝혔다.

또한, 모델의 정식 출시를 준비하기 위해 새로운 기술을 개발하는 것 외에도 DALL-E 3을 위해 구축한 기존의 안전 방법(DALL·E 3 System Card-다운)을 활용하고 있으며, 이는 소라에도 적용할 것이라고 덧붙였다.

구체적으로 소라 모델에서 텍스트 분류기(Text Classifier)는 극단적인 폭력, 성적인 콘텐츠, 혐오 이미지, 유명인 얼굴을 합성하는 것, 타인의 IP를 요청하는 등 사용 정책을 위반하는 텍스트 입력 프롬프트를 확인하고 거부한다. 또한 사용자에게 표시되기 전에 생성된 모든 비디오의 프레임을 검토하는 데 사용되는 강력한 이미지 분류기(Image Classifier)를 적용한다.

다만, 소라 모델에는 약점이 있다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 이해하지 못할 수도 있다. 예를 들어, 사람이 쿠키를 한 입 베어 물었지만 나중에 쿠키에 물린 자국이 없을 수 있으며, 모델은 왼쪽과 오른쪽을 혼동하는 등 프롬프트의 공간적 세부 사항을 혼동할 수 있으며 특정 카메라 궤적을 따라가는 것과 같이 시간에 따라 발생하는 이벤트를 정확하게 설명하는 데 어려움이 따를 수 있다.

한편, 오픈AI의 소라는 이날 공개한 데모 버전만으로도 기존 어색한 부분이 많다는 평가가 이어지는 구글, 메타, 스태빌리티AI 등이 출시한 비디오 생성 모델들보다 월등한 성능을 보여줬다. 

오픈AI는 이 모델은 실제 상호 작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 훈련하는 것을 목표로 AI에게 움직이는 물리적 세계(World Simulator)를 이해하고 시뮬레이션하도록 가르치고 있다고 한다. 이는 거의 인간에 근접한 수준으로 물리적인 세계를 이해 할 수 있게 됨을 의미한다. 

실제 상용화하기까지는 시간이 좀 걸릴 것으로 예상된다. 텍스트-비디오 모델 소라(Sora)의 적용 기술 및 자세한 내용은 기술 보고서 '월드 시뮬레이터로서의 비디오 생성 모델(Video generation models as world simulators-보기)'를 참고하면 된다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지