고품질 명령어 추종 데이터셋을 미세 조정했으며, 일루더AI(EleutherAI)의 피티아(Pythia) 모델군에 기반한 파라미터 120억 개의 언어 모델로 트레이닝 코드, 데이터 셋, 돌리 모델의 훈련된 가중치 등을 포함

데이터브릭스 에드 렌타 데이터브릭스 아태지역 총괄 수석 부사장이 기조연설을 진행하고 있다.
데이터브릭스 에드 렌타 데이터브릭스 아태지역 총괄 수석 부사장이 기조연설을 진행하고 있다.

글로벌 데이터 레이크하우스(Lakehouse)를 선도하고 있는 기업 데이터브릭스(Databricks)가 GPT 모델보다 훨씬 적은 양의 데이터로 학습할 수 있는 오픈소스 인공지능(AI) 모델 ‘돌리(Dolly)’의 업그레이드 버전인 ‘돌리 2.0’를 25일, 코엑스 인터컨티넨탈 호텔, 지하1층 하모니볼룸에서 개최된 자사의 글로벌 연례 행사인 ‘Data + AI World Tour'에서 공개했다.

특히, 돌리는 생성 AI 플랫폼이자 세계 최초의 오픈소스 명령어 추종 대형언어모델(LLM)로, 연구나 상업적 용도로 사용 가능한 명령어 학습 데이터셋을 미세 조정하여 구현됐으며, 내부 직원들로부터 크라우드 소싱된 고품질 명령어 추종 데이터셋을 미세 조정했으며, 일루더AI(EleutherAI)의 피티아(Pythia) 모델군에 기반한  파라미터 120억 개의 언어 모델로 트레이닝 코드, 데이터 셋, 돌리 모델의 훈련된 가중치 등을 포함한 돌리 2.0의 모든 것을 상업적 용도로 사용할 수 있도록 오픈소스로 공개하는 것이다.

이를 통해, 어떤 조직이든 API 액세스 비용을 지불하거나 제3자에 데이터를 공유하지 않고도 인간과 대화가 가능한 강력한 LLM을 생성, 소유 및 커스터마이징할 수 있다.

현재, 이 플랫폼 ‘돌리 2.0’은 자연어처리(NLP) 애플리케이션용으로 구축된 트랜스포머(Transformers) 라이브러리와 사용자가 머신러닝 모델 및 데이터 세트를 공유할 수 있는 세계 최대 플랫폼이자 커뮤니티인 허깅페이스(Hugging Face)를 통해 오픈소스로 공개(다운)돼 있으며, 다양한 GPU 구성에 따른 추론 실행에 대한 팁은 돌리 깃허브(다운) 참조하면 된다.

한편, 이날 국내에서 처음 오프라인으로 열린 ‘Data + AI World Tour’에는 국내 유수의 데이터 및 AI 전문가들이 참여해 서로 인사이트를 나누고 모범사례를 공유하는 자리로, 데이터브릭스의 최신 제품과 기술 혁신 등 관련 인사이트를 공유했다.

특히, 이번 행사에서는 ‘데스티네이션 레이크하우스(Destination Lakehouse)’를 주제로 현대화된 데이터 스택을 구성하는 핵심 요소들은 물론, 기업들이 데이터 자산을 즉각 활용해 보다 효과적인 비즈니스 의사결정을 내리고 AI를 성공적으로 구현하도록 하는 데이터 레이크하우스를 집중 조명했다.

행사 전경
행사 전경

데이터브릭스가 개척하고, 그 혁신을 이끌어온 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합하여 모든 데이터에 대한 비즈니스 인텔리전스(BI)와 ML(머신러닝)을 지원하는 개방형 통합 데이터 플랫폼이다.

이날 ‘엔터프라이즈 데이터 통합을 통한 데이터 가치 극대화’를 주제로 발표한 한기선 ㈜한화 DT 전략팀 테크 리드는 “㈜한화는 경영 가시성을 높이기 위해 통합 재무 대시보드를 시작으로 각 부분의 경영활동과 관련된 가시화 작업을 진행하고 있으며, 글로벌 시장 환경 변화에 따른 제품가격, 주가 예측 등을 머신러닝 영역으로 확장하는 것 또한 고려하고 있다”고 말했다.

이번 행사에서는 G마켓, 이마트24, 데브시스터즈, 한화, 메조미디어, 잡코리아, 핀다, 위버스 컴퍼니, 무신사 등을 포함한 국내 유수 기업의 데이터 및 AI 리더들이 연사로 나서 각 기업의 데이터 혁신의 여정을 공유했다.

아울러, 데이터브릭스는 데이터와 AI를 활용해 업계를 혁신하고 있는 각 조직의 데이터 팀을 5개 분야에서 선정하는 ‘2023 코리아 Data + AI 어워즈’도 함께 진행했다. 각 수상내역과 수상자는 다음과 같다.

▷'Data + AI 트랜스포메이션(Transformation) 어워드', 데이터 기반 혁신을 통해 비즈니스를 한 단계 성장시키고 명확하고 의미있는 성과를 이끌어 낸 데이터 및 AI 팀에게 수여되는 상으로, 위버스컴퍼니가 수상했다.

▷'Data + AI 비저너리(Visionary) 어워드', 조직 내에서 놀라운 성과를 내고 글로벌 데이터 AI 커뮤니티에 영감을 주는 혁신적이며 영향력 있는 데이터 및 AI 팀에게 수여되는 상으로, 데브시스터즈가 수상했다.

▷'Data + AI 민주화(Democratization) 어워드', 모든 조직 구성원이 데이터를 활용할 수 있도록 하는데 앞장서고 있는 데이터 및 AI 팀에게 수여되는 상으로, 무신사가 수상했다.

▷' 이그제큐티브(Executive) 어워드', 데이터와 AI를 혁신하고 영향력을 발휘하는 데이터 및 AI 담당 임원에게 수여되는 상으로, 이마트24 이재경 CIO(최고정보책임자)가 수상했다.

▷'Data + AI 챔피언(Champion) 어워드',  데이터브릭스를 가장 지지하는 앰배서더에게 수여되는 상으로, G마켓 서대홍 플랫폼 테크놀로지 매니저가 수상했다.

장정욱 데이터브릭스 코리아 대표가 기조연설을 진행하고 있다.
장정욱 데이터브릭스 코리아 대표가 기조연설을 진행하고 있다.

장정욱 데이터브릭스 코리아 대표는 “올해 Data + AI World Tour를 한국에서 개최하게 되어 매우 기쁘다. 데이터 레이크하우스의 선구자로서, 우리는 모든 사람이 데이터와 AI에 액세스할 수 있도록 하는 데 집중하고 있다"며, "이번 행사는 국내 데이터 및 AI 업계 리더들이 서로 인사이트를 나누고 모범사례를 공유하며, 데이터브릭스의 제품 혁신 동향을 직접 살펴볼 수 있는 아주 유익한 자리”라고 말했다.

이어 장 사장은 “특히 이번 행사에서 처음으로 데이터브릭스 코리아 고객 어워즈를 진행하여 차세대 혁신을 주도하고 있는 국내의 데이터 및 AI 팀과 업계 비전을 제시하는 리더들의 공로를 치하할 수 있게 되어 매우 뜻깊게 생각한다”고 덧붙였다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지