첨단 3D 병렬 처리를 활용하는 NOOR는 128개 A100 GPU를 통해 고성능 컴퓨팅 리소스에 대한 훈련을 거쳐 연산 배분을 할 수 있고 하드웨어 리소스의 효율적 사용을 보장

아부다비 첨단기술연구위원회(Advanced Technology Research Council. ATRC) 산하의 글로벌 연구센터이자 응용연구 전담기관인 UAE 아부다비 '기술혁신연구소(Technology Innovation Institute. 이하, TII)'가 세계 최대 규모의 아랍어 자연어처리(NLP) 모델인 '누어(NOOR)'를 발표했다.

NOOR 모델은 크롤링, 필터링 및 큐레이션 등 단대단 파이프라인 고품질 데이터를 제공해 언어 영역을 넘어 작업을 수행할 수 있는 기능을 갖추고 있다. 또한 이 모델은 효율적인 추론과 모델 특성화를 통해 애플리케이션을 제공할 수 있는 방대한 규모의 분산형 훈련과 서비스를 활성화한다.

TII 및 어스파이어(ASPIRE)의 CEO인 레이 존슨(Ray O. Johnson) 박사는 “이번 개발로 우리는 아부다비와 아랍에미리트의 위상을 진지한 연구 생태계로 격상시키는 것은 물론 연구 역량과 적격성 향상을 위한 궤도에 진입했다”며, “우리의 전문가팀은 이 지역이 전 세계에 영향을 미칠 수 있는 획기적인 R&D 성과를 이뤄낼 수 있음을 다시 한 번 입증했다”고 말했다.

기술혁신연구소의 AI센터 사업단 연구원 모습
기술혁신연구소의 AI센터 사업단 연구원 모습

TII의 AI센터 사업단 이사인 에브테삼 알마즈루에이(Ebtesam Almazrouei) 박사는 “대규모 언어 모델이 전 세계의 자연어 처리 분야에 큰 변화를 일으켰다”며 “세계에서 가장 규모가 큰 아랍어 모델로 100억 개의 매개변수를 포함하는 첨단 모델을 개발하게 돼 자랑스럽다"라고 밝혔다.

이어 "모델 훈련을 위해 수집된 독자적인 대규모 아랍어 데이터세트는 다양한 소스를 큐레이션·스크래핑·필터링하는 등 수개월간 공들인 작업의 결과물”이라며, “NOOR가 전 세계 학계와 업계가 찾는 아랍어 분석 모델이 되도록 이 프로젝트에 힘을 쏟은 팀에 특별한 감사의 뜻을 전한다”고 덧붙였다.

TII 디지털 과학 연구 센터 및 AI 크로스센터 사업단의 수석연구원인 메루아니 데바(Mérouane Debbah) 박사는 이번 출시에 대해 “NOOR를 통해 TII는 이 새로운 세대의 AI 연구에서 여러 학문 분야에 걸친 고급 전문지식을 구축할 수 있는 대규모 언어 모델의 노하우를 활용함으로써 현대 표준 아랍어 모델의 범위를 확대했다”고 강조했다.

300억 개 이상의 단어를 포함하는 NOOR 고유의 데이터세트는 모든 영역을 망라하는 세계 최대의 고품질 아랍어 데이터세트를 체계화하기 위해 웹 데이터와 서적, 시, 뉴스 및 모델의 적용 가능성을 크게 확장하는 기술 정보를 결합한다.

에브테삼 알마즈루에이 박사는 NOOR 모델은 흔히 사용하는 변환기 아키텍처를 기반으로 한다고 밝혔다. GPT-3 구조와 유사한 디코더 전용 모델로 더 나은 위치로의 임베딩(embedding) 등 개선사항을 포함해 최신 머신 러닝 기술 발전을 반영하고 업그레이드된 아키텍처를 통해 생성 과제를 처리하도록 프로그래밍했다.

TII는 NOOR 데이터세트의 규모에 맞는 품질을 보장할 수 있도록 머신 러닝 기술을 기반으로 자동 필터링 파이프라인을 설계했다. 이 툴은 품질 참조와 같은 원문을 식별하고 스팸 콘텐츠에 노출되지 않도록 지켜준다.

한편, 첨단 3D 병렬 처리를 활용하는 NOOR는 128개 A100 GPU를 통해 고성능 컴퓨팅 리소스에 대한 훈련을 거쳐 연산 배분을 할 수 있고 하드웨어 리소스의 효율적 사용을 보장하며, 아랍어의 ‘빛(Light)’에서 이름을 딴 이 모델은 마음을 깨우쳐주는 것과 아랍어 모델의 상관관계가 성립된다는 의미를 담고 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지