2조 개 이상의 토큰에 대해 사전 학습되었으며, 이는 중국어, 영어, 기타 다국어 자료, 코드, 수학 등 일반 및 전문 분야를 포괄한다. 또한 8K에 달하는 컨텍스트 길이를 갖추고 있는 모델은대규모 다중작업 언어 이해(MMLU) 벤치마크에서 56.7점의 괄목할 만한 성과를 거두며 유사하거나 일부 더 큰 규모의 여타 주요 사전학습 오픈소스 모델들의 성능을 능가..

로고 이미지
로고 이미지

알리바바그룹의 디지털 기술 및 인텔리전스의 중추 알리바바 클라우드가 70억 개의 파라미터를 갖춘 대규모 언어 모델(LLM) ‘Qwen-7B’와 이를 기반으로 한 ‘Qwen-7B-Chat’을 지난 3일 오픈소스로 공개했다. 

이는 지난달 18일 메타가 70억, 130억, 700억 개의 파라미터로 사전 학습되고 미세 조정된 모델로 2조 개의 토큰으로 훈련되었으며 100만 개 이상의 인간 주석으로 훈련된 차세대 대화형 생성 인공지능 '라마 2(LLaMa2)'를 오픈 소스로 공개(참고)한지 보름여 만이다.

중국의 대형 기술 회사가 LLM을 오픈 소스로 공개한 것은 이번이 처음으로 알리바바 클라우드는 지난 4월 초,  70억 개 이상의 파라미터를 포함한 다양한 모델 사이즈를 제공하며 중국어와 영어 모두 인간이 생산하는 것에 준하는 높은 수준의 콘텐츠를 생성할 수 있는 독자적인 첨단 LLM ‘통이치엔원(Tongyi Qianwen)’을 공개한 바 있다. 

이번에 공개된 오픈소스는 사전 학습된 70억 개의 파라미터 모델인 ‘Qwen-7B’와 대화형으로 세밀하게 조정된 버전인 ‘Qwen-7B-Chat’을 포함하고 있다.

모델 로고 이미지
모델 로고 이미지

알리바바는 AI 기술의 민주화를 위한 노력의 일환으로, 전 세계 학계와 연구기관, 영리단체들이 모델의 코드와 가중치, 문서에 무료로 접근할 수 있도록 개방할 예정이다. 월간 활성 이용자(MAU) 수가 1억 명 이하인 기업들은 이 모델을 상업적 용도로 무상 사용할 수 있으며, 1억 명 이상의 사용자를 보유한 프로그램들의 경우 알리바바 클라우드에 라이선스를 요청할 수 있다.

징런 저우(Jingren Zhou) 알리바바 클라우드 인텔리전스 최고기술책임자(CTO)는 “알리바바 클라우드는 독자적인 LLM을 오픈소스로 공개하여, 포용적 기술을 촉진하고 보다 많은 개발자와 중소기업들이 생성형 AI의 이점을 누릴 수 있도록 지원하고자 한다"고 공개 배경을 설명했다.

이어 그는 "오픈소스 이니셔티브에 대한 확고하고 장기적인 지지자로서, 알리바바 클라우드는 이처럼 개방적인 접근 방식을 통해 집단지성이 발휘되어 오픈소스 커뮤니티의 활성화에 기여할 수 있기를 희망한다"고 덧붙였다.

▷Qwen-7B는 2조 개 이상의 토큰에 대해 사전 학습되었으며, 이는 중국어, 영어, 기타 다국어 자료, 코드, 수학 등 일반 및 전문 분야를 포괄한다. 또한 8K에 달하는 컨텍스트 길이를 갖추고 있다. 

또한 ▷Qwen-7B-챗 모델은 학습 과정에서 인간의 지시사항에 맞추어 조정되었다. Qwen-7B와 Qwen-7B-챗 모델은 클라우드와 온프레미스 인프라 모두에서 배포될 수 있으며, 이를 통해 사용자들은 모델을 세밀하게 조정할 수 있고 효과적·경제적으로 자체적인 고품질 생성형 모델을 구축할 수 있다.

여러 벤치마크에서 두각을 나타낸 알리바바 클라우드의 Qwen-7B 모델(출처:알리바바)
여러 벤치마크에서 두각을 나타낸 알리바바 클라우드의 Qwen-7B 모델(출처:알리바바)

특히, 사전 학습된 Qwen-7B 모델은 대규모 다중작업 언어 이해(MMLU, Massive Multi-task Language Understanding) 벤치마크에서 56.7점의 괄목할 만한 성과를 거두며 유사하거나 일부 더 큰 규모의 여타 주요 사전학습 오픈소스 모델들의 성능을 능가하였다. 

이 벤치마크는 초등 수학, 컴퓨터 과학, 법률 등을 포함한 57가지의 다양한 과업을 수행하는 텍스트 모델의 다중 작업 정확도를 평가한다. 또한, Qwen-7B는 기초 모델을 위한 종합적인 중국어 평가 테스트인 C-이벌(C-Eval)에서 동등한 파라미터를 가진 모델 중 가장 높은 점수를 기록하기도 했다. 

이 모델은 인문학, 사회과학, STEM(과학, 기술, 공학, 수학), 기타 분야를 포함한 총 52개 주제를 다루고 있으며, Qwen-7B는 GSM8K와 휴먼이벌(HumanEval)과 같은 수학 및 코드 생성의 벤치마크에서도 우수한 성능을 보여주었다.

알리바바 클라우드는 지난 7월 개발자와 중소기업의 창의적 이미지 표현을 지원하는 AI 이미지 생성기 '통이 완샹(Tongyi Wanxiang)'을 공개했다. 또한 모델스코프의 다양한 AI 모델을 활용해 언어, 시각, 음성 영역에서 복잡하고 전문화된 AI 작업을 수행하는 데 활용할 수 있는 다용도 프레임워크 ‘모델스코프GPT’를 공개하기도 했다. 

한편, 알리바바 클라우드가 지난해 출시한 모델스코프는 20개의 선도적 AI 연구기관들이 제공한 1,000개 이상의 AI 모델을 보유한 오픈소스 AI 모델 커뮤니티다. Qwen-7B와 Qwen-7B-챗에 대한 플랫폼은 모델스코프(ModelScope-다운)를 비롯해 허깅페이스(HuggingFace-다운), 깃허브(GitHub-다운)를 통해 사용할 수 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지