영어로 된 학습 데이터만으로 중국어, 스페인어 등 데이터가 부족한 비영어권 언어를 자연어처리하는 과제를 해결하는 프레임워크를 제시

AAAI-2020 로고 이미지(사진:AAAI)
AAAI-2020 로고 이미지(사진:AAAI)

현지시간 7 일부터 12 일까지 美 뉴욕의 힐튼 뉴욕 미드 타운에서 개최되는 머신러닝·딥러닝 등 최신 AI 기술을 공유하는 글로벌 최고 권위의 제 34회 미국 인공지능학회(AAAI 2020, American Association for the Artificial Intelligence)에 국내 AI 스타트업 슈퍼브이에이아이(대표 김현수 이하, 슈퍼브AI)가 제출한 자연어 처리(NLP) 관련 연구 논문이 채택되었다.

이번 채택된 논문은 지난해 여름 인턴십 프로그램에 참여했던 홍찬의 씨(하버드 대학교) 및 슈퍼브AI 부설 연구소장 이정권 CTO, 이재연 연구원의 공동 연구 성과다. 저자는 영어로 된 학습 데이터만으로 중국어, 스페인어 등 데이터가 부족한 비영어권 언어를 자연어처리(NLP)하는 과제를 해결하는 프레임워크를 제시했다.

논문 제목은 '제로샷 교차 언어 전이를 위한 문장 임베딩 기반 비지도 중간언어 의미 표현 방법(Unsupervised Interlingual Semantic Representations from Sentence Embeddings for Zero-Shot Cross-Lingual Transfer)' 이다.

또한 슈퍼브AI는 부대행사로 ‘AAAI-20 전시’에 참가해 국제 AI 기업과 연구자를 대상으로 머신러닝 데이터 플랫폼 서비스인 ‘슈퍼브에이아이 스위트(Superb AI Suite)’를 체험 할 수 있는 이벤트를 진행할 예정이다.

김현수 대표는 “AI 업계에서 필요로 하는 기능을 지속적으로 발굴하여 머신러닝 데이터 제작, 관리, 분석에 최적화 된 서비스를 만들겠다”고 포부를 말했다.

한편, 슈퍼브AI는 2018년 4월 설립됐으며, 머신러닝 데이터 플랫폼을 개발하는 AI스타트업이다. 지난해 12월 기업용 서비스형 소프트웨어(SaaS)인 ‘슈퍼브AI 스위트(Superb AI Suite)’를 출시했다. 솔루션은 데이터 수집, 제작 단계의 전통적인 데이터 가공부터 딥러닝 알고리즘 학습 과정에 필요한 데이터 관리, 분석까지 올인원으로 제공한다.

2019년 실리콘밸리 스타트업 액셀러레이팅 프로그램 와이콤비네이터(Y Combinator)에 참가, 시드 투자를 받았다. 그 외 듀크 대학(Duke University), 페가수스 테크 벤처스(Pegasus Tech Ventures), 뮤렉스파트너스, KT인베스트먼트 등으로부터 총 25억의 투자를 유치하기도 했다.

특히 지난달에는 국내 최초로 한글 OCR AI 학습용 데이터 780만 글자 구축에 성공, AI 허브에 공개했다. 인공지능 개발을 위한 간판, 도로 표지 등의 이미지 내 Text in the Wild 130만 글자, 인쇄체 280만 글자, 손글씨체 370만 글자 등 총 780만 글자 이미지 데이터를 성공적으로 제작했으며, 한국어의 고유한 특성을 살린 OCR 인공지능 학습용 데이터 세트로서 한글 자모 조합 총 1만1172자를 포함한다. (관련 본지 보도 2020.01.30: 슈퍼브AI, 국내 최초 한글 OCR 인공지능 학습용 데이터 780만 字 공개)

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지