알렉사 오토팀은 새로운 알렉사 오토 소프트웨어 개발 키트(SDK)를 출시하여 이제 개발자가 아마존의 가상비서 알렉사(Alexa) 기능을 차량용 인포테인먼트 시스템에 적용할 수 있도록 했다

사진:본지DB

최근 우리 곁에 가장 가까이 두고 인공지능을 직접 느낄 수 있으며, 가장 인기있는 AI는 가상비서 일 것이다. 구글어시트턴트(Google Assistant), 아마존 알렉사(Alexa), 마이크로소프트의 코타나(Cortana), 애플 시리(Apple Siri), 삼성 빅스비(Bixby) 등은 공통점이 있다. 이들은 자연 언어 모델이 무한한 처리 능력을 갖춘 강력한 클라우드에서 음성 인식의 상당 부분을 수행하는 것이 일반적이다. 처리 시간은 밀리 초(msec)이지만 인터넷에 연결되어 있지 않은 사용자에게는 분명한 문제가 된다.

아마존 알렉사 머신러닝(Alexa Machine Learning) 팀의 그랜트 스트리멜(Grant Strimel)은 13일(현지시각) 알렉사 블로그 포스트를 통해 지난 주 알렉사 오토팀은 새로운 알렉사 오토 소프트웨어 개발 키트(Alexa Auto Software Development Kit, SDK)를 출시하여 이제 개발자가 아마존의 가상비서 알렉사(Alexa) 기능을 차량용 인포테인먼트 시스템에 적용할 수 있도록 했다고 밝혔다.

자동차 속으로 들어간 가상비서 알렉사(사진:아마존)
자동차 속으로 들어간 가상비서 알렉사(사진:아마존)

그랜트 스트리멜는 "이번 알렉사 SDK의 초기 릴리스에서는 자동차 시스템이 현재 알렉사를 지원하는 마신러닝 모델이 클라우드에 액세스할 수 있다고 가정 하지만 앞으로는 알렉사 지원 차량과 기타 모바일 기기가 오프라인 상태에서도 일부 핵심 기능을 이용했으면 합니다"라며, 이는 기본 머신러닝 모델의 크기를 크게 줄여 로컬 메모리에 저장할 수 있다는 것을 의미합니다"라고 전했다.

그와 동시에, 제 3의 개발자들은 알렉사의 기본 능력으로 확장되는 45,000개 이상의 알렉사 응용 기술을 만들어냈고, 그 숫자는 매일 증가하고 있다며, "클라우드에서도 타사 기술은 고객 요청에 의해 명시적으로 호출된 경우에만 메모리에 로드됩니다. 또 기본 모델을 축소하면 로드 시간이 단축되어 알렉사 고객이 밀리초 단위의 응답 시간을 계속 경험할 수 있습니다"라고 덧붙였다.

알렉사의 자연어 인식 시스템은 자유 양식 표현을 해석하는 여러 가지 다른 유형의 머신러닝 모델을 사용하지만, 모두 몇 가지 공통적인 특성을 공유한다. 하나는 입력 음성에서 '기능' 또는 특정 예측 값을 가진 문자열의 텍스트를 추출하는 방법을 학습한다는 것이다. 예를 들어, 음악 요청을 처리하기 위해 훈련된 머신러닝 모델은 아마도 "비틀즈", "엘튼 존", "위트니 휴스턴", "아델" 등과 같은 텍스트 문자열에 민감해질 것이다.

자동차 속으로 들어간 가상비서 알렉사(사진:아마존)
자동차 속으로 들어간 가상비서 알렉사(사진:아마존)

알렉사의 머신러닝 모델들은 종종 수백만 가지의 기능을 가지고 있다. 또 다른 공통적 특성으로는 각 형상에 관련된 '가중치'가 있다는 것이다. 이는 형상이 다른 유형의 계산에서 얼마나 큰 역할을 해야 하는지를 결정하며, 수백만 개의 기능을 위해 여러 개의 가중치를 저장할 필요가 있기 때문에 머신러닝 모델은 메모리를 많이 사용한다.

이번 연구팀이 머신러닝 모델을 압축하는 첫 번째 기법은 가중치를 정량화하는 것이다. 총 범위(예: -100 ~ 100)를 취하여 균등한 간격으로 나눈다(예: -100 ~ -90, -90 ~ -80 등). 그런 다음 각 가중치를 해당 간격에 가장 가까운 경계 값으로 반올림한다. 실제로, 연구팀은 256개의 간격을 사용했으며, 네트워크 정확도에 미치는 영향을 최소화하면서 모델의 모든 가중치를 단일 바이트로 나타낼 수 있었다. 이 접근법은 낮은 가중치를 0으로 자동 반올림하여 폐기할 수 있다는 추가적인 장점이 있다.

특히 또 다른 압축 기술을 위해서는 특정 기능을 해당 가중치의 메모리 위치에 매핑 하는 방법이 필요하다. 이러한 매핑을 수행하는 표준 방법은 해싱을 통해 수행되며, 메모리 위치에서 두 개의 다른 가중치를 찾으면 메타데이터 태그를 참조하여 어떤 가중치가 어떤 아티스트에 속하는지 결정하는 데 그리 오래 걸리지 않지만 메모리 풋프린트의 경우 충돌 해결 방법은 상당한 차이를 만든다.

또한 정량화의 경우 가중치 자체에는 몇 바이트의 데이터만 필요하다. 가중치를 구분하는 데 사용되는 메타데이터는 결국 태그 지정 데이터보다 메모리에 더 많은 공간을 요구할 수 있지만 연구팀은 완벽한 해싱(hashing)이라고 불리는 고급 해싱 기술을 사용하여 이 문제를 해결했으며, 해싱은 특정 데이터 항목을 동일한 수의 메모리 슬롯에 매핑하지만 충돌이 발생하지 않는다. 완벽한 해싱을 통해 시스템은 일련의 문자를 해시(Hash)하여 해당 가중치를 올리면 되며, 메타데이터가 필요하지 않는다.

한편 이번 알렉사 오토팀의 연구 결과는 '소형 자연어 이해를 위한 통계적 모델 압축(Statistical Model Compression for Small-Footprint Natural Language Understanding. 다운받기)' 이란 제목으로 오는 9 월 2일부터 6 일까지 인도 하이데라바드(Hyderabad)에서 개최되는 '인터스피치 머신러닝 컨퍼런스 2018(Interspeech machine learning conference 2018)'에서 발표 될 예정이다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지