생성 AI 애플리케이션에 유연성을 두고 세 가지 모델로 설계된 'Gemini 1.0'은 매우 복잡한 작업을 위한 가장 크고 가장 뛰어난 '울트라(Ultra)', 광범위한 작업에 걸쳐 확장할 수 있는 '프로(Pro)' 및 온디바이스 작업을 위한 가장 효율적으로 실행하는 '나노(Nano)'로 크기에 최적화되어 데이터 센터에서 모바일 장치에 이르기까지 모든 장치에서 실행할 수 있다. GPT-4를 넘은 모델은 울트라 모델

"이 새로운 시대의 모델은 우리가 수행해온 가장 큰 과학 및 엔지니어링 노력 중 하나로 저는 앞으로 있을 일이 무엇인지, 그리고 제미니가 모든 곳의 사람들을 위해 열어줄 기회에 대해 기대됩니다"라고 출시에 따른 소감을 밝혔다(사진:본지DB).
"이 새로운 시대의 모델은 우리가 수행해 온 가장 큰 과학 및 엔지니어링 노력 중 하나로 저는 앞으로 있을 일이 무엇인지, 그리고 제미니가 모든 곳의 사람들을 위해 열어줄 기회에 대해 기대됩니다"라고 출시에 따른 소감을 밝혔다(사진:본지DB).

현지시간 6일, 구글이 GPT-4를 뛰어넘은 정교한 멀티모달 추론 기능을 갖춘 가장 유능한 모델인 '제미나이(Gemini)'를 발표했다. 당초 내년 초에 출시가 예상됐지만 이날 깜짝 발표된 것이다. 

생성 AI 애플리케이션에 유연성을 두고 설계된 'Gemini 1.0'은 매우 복잡한 작업을 위한 가장 크고 가장 뛰어난 '울트라(Ultra)', 광범위한 작업에 걸쳐 확장할 수 있는 '프로(Pro)' 및 온디바이스 작업을 위한 가장 효율적으로 실행하는 '나노(Nano)'의 세 가지 모델로 크기에 최적화되어 데이터 센터에서 모바일 장치에 이르기까지 모든 장치에서 실행할 수 있다. GPT-4를 넘은 모델은 울트라 모델이다.

Gemini 로고 이미지(사진:구글)
Gemini 로고 이미지(사진:구글)

지난 4월 20일, 생성 AI 위해 새로운 '구글 딥마인드(Google DeepMind)‘로 승부수 던진 구글과 모회사 알파벳(Alphabet)의 CEO 순다르 피차이(Sundar Pichai)와 딥마인드(DeepMind)' CEO 데미스 하사비스(Demis Hassabis)는 "구글의 인공지능 분야에서 두 개의 선도적인 연구 그룹인 구글 리서치(Google Research)의 '브레인(Brain)' 팀과 딥마인드를 새로운 하나의 집중된 팀. '구글 딥마인드'로 통합하고 AI의 발전을 크게 가속화할 것"이라고 밝혔었다.

제미니는 구글 딥마인드의 첫 번째 작품인 것이다. 

이날 순다르 피치이 CEO는 "이제, 우리는 수많은 주요 벤치마크에서 최고의 성능을 발휘하며, 가장 유능하고 일반적인 모델인 Gemini를 통해 여정의 다음 단계를 밟고 있습니다. 올해 초 구글 딥마인드를 설립(보기)할 때 우리가 가졌던 비전을 처음으로 실현한 모델입니다"라며, "이 새로운 시대의 모델은 우리가 수행해 온 가장 큰 과학 및 엔지니어링 노력 중 하나로 저는 앞으로 있을 일이 무엇인지, 그리고 제미니가 모든 곳의 사람들을 위해 열어줄 기회에 대해 흥분됩니다"라고 출시에 따른 소감을 밝혔다.

데미스 하사비스 구글 딥마인드 CEO는 "오랫동안 우리는 사람들이 세상을 이해하고 상호 작용하는 방식에서 영감을 받아 차세대 AI 모델을 구축하고 싶었습니다"라며, "Gemini는 스마트한 소프트웨어라기보다는 유용하고 직관적인 것, 즉 전문가 도우미 또는 보조자처럼 느껴지는 AI입니다"라고 말했다.

이어 그는 "오늘 우리는 지금까지 우리가 만든 가장 유능하고 일반적인 모델인 제미니를 발표하면서 이 비전에 한 걸음 더 다가섰습니다"라며, 제미니는 구글 리서치를 비롯한 구글 전체 팀의 대규모 공동 노력의 결과로 처음부터 다중 모드로 구축되었습니다. 즉, 텍스트, 코드, 오디오, 이미지 및 비디오를 포함한 다양한 유형의 정보를 일반화하고 원활하게 이해하고 작동하며 결합할 수 있습니다"라고 밝혔다.

 

이날 구글은 이전 기술보다 더 정교한 추론과 더 큰 뉘앙스로 정보를 이해할 수 있다며 Gemini 모델을 엄격하게 테스트하고 다양한 작업에서 그 성능을 평가해 왔다고 밝혔다.

자연스러운 이미지, 오디오, 비디오 이해부터 수학적 추론에 이르기까지 '제미나이 울트라'의 성능은 대규모 언어 모델(LLM) 연구 및 개발에 널리 사용되는 32개의 학술 벤치마크 중 30개에서 현재, 가장 최신의 결과를 뛰어넘었다.

특히 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 과목을 조합하여 세계 지식과 문제 해결 능력을 테스트하는 MMLU(대규모 다중 작업 언어 이해)에서 90.0%의 점수로 Gemini는 어려운 질문에 답하기 전에 더 신중하게 생각할 수 있는 추론 기능으로 인간 전문가를 능가한 최초의 모델로 등극했다

Gemini는 텍스트 및 코딩을 포함한 다양한 벤치마크에서 최첨단 성능을 능가했다(출처:구글)
Gemini는 텍스트 및 코딩을 포함한 다양한 벤치마크에서 최첨단 성능을 능가했다(출처:구글)

또한 Gemini 울트라는 의도적인 신중한 추론이 필요한 여러 영역에 걸친 멀티모달 작업으로 구성된 새로운 MMMU 벤치마크에서 59.4%의 최첨단 점수를 획득했으며, 테스트한 이미지 벤치마크에서 추가 처리를 위해 이미지에서 텍스트를 추출하는 OCR(object character recognition, 객체 문자 인식) 시스템의 도움 없이도 이전의 최신 모델보다 뛰어난 성능을 보였다. 즉, 이 벤치마크는 제미니의 기본 멀티 모달리티를 강조하며, 더 복잡한 추론 능력을 보여준 것이다.

Gemini 1.0의 정교한 멀티모달 추론 기능은 복잡한 서면 및 시각적 정보를 이해하는 데 도움이 될 수 있다. 이는 방대한 양의 데이터 속에서 식별하기 어려울 수 있는 지식을 찾아내는 데 탁월한 능력을 발휘하고 정보 읽기, 필터링 및 이해를 통해 수십만 개의 문서에서 통찰력을 추출하는 놀라운 능력은 과학에서 금융에 이르기까지 다양한 분야에서 디지털 속도로 새로운 혁신을 제공한다.

프롬프트에서 텍스트, 이미지, 오디오 등을 동시에 인식하고 이해하도록 훈련되어 미묘한 정보를 더 잘 이해하고 복잡한 주제와 관련된 질문에 답할 수 있다. 이는 수학과 물리학과 같은 복잡한 주제에 특히 탁월한 능력을 발휘할 수 있다.

더불어 고급 코딩 능력으로 Gemini의 첫 번째 버전은 파이썬(Python), 자바(Java), C++, Go 등 세계에서 가장 널리 사용되는 프로그래밍 언어로 고품질 코드를 이해하고 설명하며 생성할 수 있다. 이는 다양한 언어로 작업하고 복잡한 정보에 대해 추론할 수 있는 능력 덕분에 전 세계 코딩을 위한 최고의 기반 모델 중 하나가 되었다.

알파코드 시연 이미지
알파코드 시연 이미지

Gemini 울트라는 코딩 작업 성능을 평가하기 위한 중요한 업계 표준인 HumanEval 과 웹 기반 정보 대신 작성자가 생성한 소스를 사용하는 내부 보유 데이터 세트인 Natural2Code를 포함한 여러 코딩 벤치마크에서 탁월한 성능과 고급 코딩 시스템을 위한 엔진으로도 사용할 수 있다. 구글은 2022년 2월 프로그래밍 대회에서 경쟁력 있는 성능 수준에 도달한 최초의 AI 코드 생성 시스템인 알파코드(AlphaCode-보기) 선보였다.

이를 기반으로 구글은 Gemini의 특수 버전을 사용하여 코딩을 넘어 복잡한 수학과 이론적 컴퓨터 과학을 포함하는 경쟁력 있는 프로그래밍 문제를 해결하는 데 탁월한 고급 코드 생성 시스템인 알파코드 2(AlphaCode 2. 자료 다운)를 만들었다.

특히, 알파코드와 동일한 플랫폼에서 평가했을 때 알파코드 2는 엄청난 개선을 보여 거의 두 배에 달하는 문제를 해결했으며, 경쟁 참가자의 85%보다 더 나은 성능을 발휘하는 것으로 추정된다.

이는 알파코드의 거의 50%보다 높은 수치다. 프로그래머가 따라야 할 코드 샘플에 대한 특정 속성을 정의하여 알파코드 2와 협력하면 성능이 더욱 향상된다. 개발자들은 문제에 대해 추론하고, 코드 디자인을 제안하고, 구현을 지원하는 데 도움이 되는 협업 도구로 고성능 AI 모델을 점점 더 많이 사용할 수 있으며 이를 통해 앱을 출시하고 더 나은 애플리케이션을 더 빠르게 디자인하고 배포할 수 있다.

더 자세한 내용은 제미니 기술 보고서 'Gemini: 고성능 멀티모달 모델(Gemini: A Family of Highly Capable Multimodal Models-다운)을 참고하면 된다.

Gemini는 다양한 멀티모달 벤치마크에서 최첨단 성능을 능가했다.(출처:구글)
Gemini는 다양한 멀티모달 벤치마크에서 최첨단 성능을 능가했다.(출처:구글)

아울러, Gemini는 구글이 자체 설계한 학습부터 추론까지 모든 AI 워크로드의 성능과 비용을 최적화시키는 TPU(Tensor Processing Units-보기) v4 및 v5e를 사용하여 AI에 최적화된 인프라에서 대규모로 학습했다. 그리고 이를 가장 안정적이고 확장 가능한 훈련 모델이자 가장 효율적으로 서비스할 수 있는 모델로 설계됐다.

TPU에서 Gemini는 이전의 작고 성능이 떨어지는 모델보다 훨씬 빠르게 실행된다. 맞춤 설계된 AI 가속기는 검색, 유튜브(YouTube), Gmail, 구글 지도, 구글 플레이, 안드로이드 등 수십억 사용자에게 서비스를 제공하는 구글 AI 기반 제품의 핵심이다. 또한 전 세계 기업이 대규모 AI 모델을 비용 효율적으로 교육할 수 있도록 지원한다.

또한 구글은 이날 최첨단 AI 모델 학습을 위해 설계된 가장 강력하고 효율적이며 확장 가능한 TPU 시스템인 Cloud TPU v5p를 발표(보기)했다. 이 차세대 TPU는 Gemini의 개발을 가속화하고 개발자와 기업 고객이 대규모 생성 AI 모델을 더 빠르게 훈련하도록 지원하여 새로운 제품과 기능이 고객에게 더 빨리 도달할 수 있도록 돕는다.(아래는 Cloud TPU v5p 소개 영상)

 

구글은 Gemini의 최첨단 기능은 개발자와 기업 고객이 AI를 구축하고 확장하는 방식을 크게 향상할 것이라며, 이날부터 대화형 생성 인공지능(Generative AI) '바드(Bard)'는 고급 추론, 계획, 이해 등을 위해 미세 조정된 제미나이 프로(Gemini Pro) 버전을 적용(체험)된다. 이는 Bard 출시 이후 가장 큰 업그레이드로 170개 이상의 국가 및 지역에서 영어로 제공될 예정이며, 가까운 시일 내에 다양한 방식으로 확장하고 새로운 언어와 위치를 지원할 계획이다.

또한 온디바이스 작업을 위해 제작된 가장 효율적인 모델 제미나이 나노(Gemini Nano)를 스마트폰으로 가져온다. Pixel 8 Pro는 제미나이 나노를 실행하도록 설계된 최초의 스마트폰이다. 이 스마트폰은 녹음기 앱의 요약과 같은 새로운 기능을 지원하고 WhatsApp을 시작으로 Gboard의 스마트 답장 기능을 출시하며, 내년에는 더 많은 메시징 앱이 출시될 예정이다. (아래는 Pixel 8 Pro의 온디바이스 생성 AI 기능 지원 소개 영상)

 

앞으로 몇 달 안에 Gemini는 검색, 광고, Chrome, Duet AI 등 더 많은 제품과 서비스에서 사용할 수 있게 될 것이며, 이미 검색에서 제미니를 테스트하기 시작했다. 이를 통해 사용자의 검색 생성 경험(SGE-시연화면)이 더 빨라지고 미국에서 영어로 인한 지연 시간이 40% 감소하고 품질도 향상된다.

13일부터 개발자와 기업 고객은 구글 AI 스튜디오(Google AI Studio) 또는 구글 클라우드 버텍스 AI(Google Cloud Vertex AI-보기)에서 제미니 API를 통해 Gemini 프로에 액세스할 수 있다 .

구글 AI 스튜디오는 API 키를 사용하여 신속하게 앱 프로토타입을 만들고 실행할 수 있는 무료 웹 기반 개발자 도구다. 완전 관리형 AI 플랫폼이 필요한 경우 버텍스 AI(Vertex AI)를 사용하면 완전한 데이터 제어를 통해 제미니를 맞춤설정할 수 있으며 기업 보안, 안전, 개인정보 보호, 데이터 거버넌스 및 규정 준수를 위한 구글 클라우드 추가 기능의 이점을 제공한다.

또한 안드로이드 개발자는 Pixel 8 Pro 기기부터 Android 14에서 사용할 수 있는 새로운 시스템 기능인 AICore(보기)를 통해 기기 내 작업을 위한 가장 효율적인 모델인 Gemini 나노를 사용하여 구축할 수 있다. 

Gemini 울트라는 곧 출시될 예정으로 현재 신뢰할 수 있는 외부 당사자의 레드팀 구성을 포함하여 광범위한 신뢰 및 안전 검사를 완료하고 있으며, 이를 광범위하게 제공하기 전에 인간 피드백(RLHF)을 통한 미세 조정 및 강화 학습을 사용하여 모델을 더욱 개선하고 있다.

한편 구글은 이 프로세스의 일환으로, 내년 초에 개발자와 기업 고객에게 출시하기 전에 초기 실험과 피드백을 위해 선택된 고객, 개발자, 파트너, 안전 및 책임 전문가에게 제미나이 울트라를 제공하고, 내년 초에는 제미나이 울트라를 시작으로 최고의 모델과 기능에 액세스할 수 있는 새로운 최첨단 AI 경험을 제공하는 '바드 어드밴스드(Bard Advanced)'도 출시할 예정이다.

 

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지