알리바바그룹의 디지털 기술 및 인텔리전스의 중추 알리바바 클라우드가 대규모 언어 모델(LLM)인 ‘통이치엔원(Tongyi Qianwen)’을 AI 구동 미팅 어시스턴트인 ‘팅우(Tingwu)’와 결합했다.

대규모 언어 모델(LLM)이자 생성 인공지능((generative AI) 모델 ‘통이치엔원(通义千问, Tongyi Qianwen-참고)은 텍스트를 이미지와 짧은 동영상으로 변환할 수 있는 모델을 비롯한 다양한 AI 모델을 통합하는 알리바바의 독점 사전 학습 모델 프레임워크인 '통이(Tongyi-보기)'를 기반으로 한다. 

이를 팅우에 결합해 멀티미디어 콘텐츠들을 보다 높은 정확성과 효율성으로 이해하고 분석하는 것이 가능해졌다. 

예를 들어, 비디오 또는 오디오 파일에서 내용이 요약된 텍스트를 생성하거나 각 화자의 주요 요점을 정리해 준다. 또한, 멀티미디어 파일들의 타임라인을 생성하거나 섹션별 요약본을 개발한다.

통이 팅우(Tongyi Tingwu) 홈페이지 갈무리
통이 팅우(Tongyi Tingwu) 홈페이지 갈무리

알리바바는 생성 AI 멀티모달로 진화한 팅우를 ‘통이팅우(Tongyi Tingwu)’라 명명하고 현재 베타 테스트 중이다. 통이 팅우는 알리바바의 디지털 협업 업무 공간이자 애플리케이션 개발 플랫폼인 ‘딩톡(DingTalk)’에도 적용돼 업무 간 필요한 AI 서비스를 제공할 예정이다. 

통이팅우는 업무 효율성을 개선하는 것 외 다양한 멀티미디어 플랫폼에서 온라인 교육, 트레이닝, 인터뷰, 라이브 스트리밍, 팟캐스트, 숏폼 비디오 등에 활용되며 더욱 빠르고 쉬운 지식의 공유를 돕는다.

징런 저우(Jingren Zhou) 알리바바 클라우드 인텔리전스의 CTO는 “우리는 매일 점점 더 많은 양의 비디오와 오디오 콘텐츠를 다양한 방식으로 소비하는 시대에 살고 있다"며, "이에 발맞춰 대규모 언어 모델을 적용한 통이 팅우는 멀티미디어 콘텐츠의 보다 빠르고 심도 있는 이해와 쉬운 공유를 가능하게 돕는다”고 말했다.

이어 그는 “향후 통이치엔원을 점차 더 많은 제품과 서비스에 결합해 사용자들이 업무, 학습, 놀이 등에서 강력한 AI 기술 혁신의 혜택을 누릴 수 있도록 할 예정”이라고 말했다.

'통이(Tongyi)'에서 생성된 이미지
'통이(Tongyi)'에서 생성된 이미지

팅우는 알리바바그룹의 글로벌 연구 기관 다모(DAMO) 아카데미에서 자체 개발한 음성인식 모델 ‘파라포머(Paraformer)’와 화자 구분 모델 ‘캠++(CAM++)’ 등 자사의 오디오 및 비디오 모델들과 새로 공개한 대규모 언어 모델 통이치엔원을 활용해 더 정확하게 오디오비〮디오를 텍스트로 변환하며 다양한 AI 기반 기능을 제공한다.

한편, 통이 팅우는 현재, Alibaba Cloud 계정을 통해 체험(보기)할 수 있으며 AI 기반 신규 기능들은 올해 말 제공 예정이다. 추가될 기능으론 오디오비〮디오 파일 내 사용자 질문에 대한 답변을 텍스트로 자동 개발하고 영상 내 파워포인트 슬라이드들을 바탕으로 요약본을 생성하는 것이 있다. 또한, 크롬 플러그인과 팅우를 활용해 멀티미디어 콘텐츠에 대한 영어와 중국어 간 실시간 번역 서비스도 제공한다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지