NXP 반도체는 무료 온라인 트레이닝 툴을 제공하는 업계 최초의 포괄적인 로컬 음성 제어 소프트웨어 패키지인 음성 지능형 기술(Voice Intelligent Technology, 이하, VIT)을 발표했다.고도의 인공지능(AI) 딥러닝을 기반으로 한 VIT는 즉시 사용할 수 있는 라이브러리로, 최대 3개의 마이크, 상시 호출 명령어 엔진, 음성 명령 엔진을 지원하는 원거리 오디오 프런트 엔드를 제공한다.NXP의 무료 온라인 툴을 사용하면 음성을 녹음할 필요 없이 간단한 텍스트 입력을 통해 호출 명령어와 음성 명령을 직접 정의할 수
한 언어에서 다른 언어로 음성에서 음성으로 번역(Speech-To-Speech Translation. 이하, S2ST)을 자동으로 번역하는 것은 서로 다른 언어를 사용하는 사람들 사이의 의사소통과 문화 및 정보 교류에 혁신적으로 기여한다.일반적으로 기존 자동 S2ST 시스템은 자동음성인식(ASR), 텍스트 간 기계 번역(MT) 및 텍스트 음성 변환(TTS) 합성 하위 시스템의 캐스케이드(Cascade)로 구축되므로 시스템 전체가 텍스트 중심이다.최근, 학습된 개별 음성 표현에 기초한 엔드 투 엔드 다이렉트 S2ST(예:Transla
인메모리 컴퓨팅(computing-in-memory) 기술은 엣지에서 인공지능(AI) 음성 프로세싱을 수행할 때 발생하는 대규모 데이터 통신 병목 현상을 제거하기 위해 사용된다. 이를 위해서는 신경망 연산을 수행하는 동시에 가중치를 저장할 수 있는 임베디드 메모리 솔루션이 필요하다.이러한 문제를 해결하기 위해 마이크로컨트롤러, 혼합 신호, 아날로그 반도체 및 플래시-IP 솔루션 분야 글로벌 리더 마이크로칩테크놀로지(아시아 총괄 및 한국대표: 한병돈)는 자회사인 실리콘 스토리지 테크놀로지(SST)를 통해 슈퍼플래시 멤브레인(Super
인간의 두뇌는 특정 소리를 인식할 뿐만 아니라 소리가 나는 방향을 인지하도록 미세 조정된다. 즉, 뇌는 오른쪽 귀와 왼쪽 귀에 도달하는 소리의 차이를 비교하여 개가 짖는 소리, 소방차의 사이렌 소리 또는 다가오는 자동차의 소리 등으로 객체의 위치를 추정할 수 있다.인간의 귀는 외이, 중이, 내이의 세 부분으로 이루어졌으며, 외이(外耳)의 한 부분으로 소리를 모으는 역할과 다양한 크기와 모양을 가지고 있는 귓바퀴는 공기와 중이(中耳) 사이에서 소리의 에너지를 점차 좁아지는 귓속으로 모으는 음파의 임피던스 매치 역할을 한다. 이 흐름으
SK텔레콤(대표 사장 유영상)이 인공지능(AI) 스피커 ‘누구 캔들 SE (NUGU candle SE)’를 18일부터 11번가를 통해 판매한다.‘누구 캔들 SE’는 인공지능 음성인식 플랫폼과 조명 기능을 결합한 새로운 AI 기기로 인기를 끌었던 ‘누구 캔들’의 후속 모델로, 패브릭 컬러를 변경하고 음향 품질을 개선한 제품이다. ‘누구 캔들 SE’의 가격은 10만9천원(VAT 포함)으로, 18일부터 11번가를 통해 구매 가능하다.‘누구 캔들 SE’도 ‘누구 캔들’과 마찬가지로 한국어와 영어를 모두 지원하는 '누구 멀티 에이전트' 서비
SK텔레콤(대표)은 통합 커뮤니케이션 플랫폼 T전화에 음성 통화 녹음을 문자로 변경해 제공하는 ‘AI통화녹음’ 서비스를 추가, 23일부터 베타 서비스를 시작한다.SKT의 ‘AI통화녹음’은 통화 시 녹음된 음성 파일을 문자로 전환해 이용자에게 제공하는 서비스로, 기존 T전화의 통화녹음 기능에 STT STT(Speech to Text)ᆞ대화 분석 등 AI 기술을 더해 제작됐다.SKT는 ‘AI통화녹음’의 화면을 대화창 형태로 구성, 이용자가 자신과 통화 상대방의 대화를 한 눈에 구분하고 전체 통화 내용을 빠르게 파악할 수 있도록 했으며,
단 하루 만에 30분 분량의 오디오 데이터로 인간과 유사한 맞춤형 음성을 만들 수 있는 음성 AI 소프트웨어 '리바 커스텀 보이스(Riva Custom Voice)'가 선보였다.지난 9일부터 11일(현지시간)까지 개최된 엔비디아 연례행사 'GTC 2021'에서 선보인 엔비디아 리바 커스텀 보이스는 많은 기업이 적은 양의 데이터를 사용해 몇 주가 아닌 몇 시간 내에 리바와 함께 표현 가능한 맞춤형 음성을 개발할 수 있도록 한다.리바 커스텀 보이스는 최신 버전의 엔비디아 리바 음성 AI 소프트웨어개발키트(SDK)에서 사용할 수 있다.리
월드와이드웹(WWW.)과 브라우저는 우리의 삶에 스며들어 필요한 거의 모든 정보와 사회화하고 소통하는 방법, 그리고 우리가 비지니스를 수행하는 방법 등 거의 모든 분야에서 혁명을 일으켰다.이제, 인공지능(AI) 음성인식과 구현 플랫폼의 고도화와 자연어 처리(NLP) 기술이 초거대 언어 인공지능 모델로 진화해 나감에 따라 음성 기반 에이전트는 그 어느 때보다 똑똑해지고 지능화되고 있다. 또한 개발하기 쉽고 저렴하게 만드는 새로운 도구를 사용하여 새로운 혁신의 세계를 접하고 있다.여기에, 스탠포퍼드대학교의 OVAL(Stanford Op
아마존 알렉사는 노인 생활 및 의료 서비스 제공자가 알렉사를 시설 또는 병원에 통합할 수 있게 하고 시설 입주자 또는 환자가 알렉사에게 요청하기만 하면 연결, 정보 및 엔터테인먼트를 유지할 수 있도록 지원하는 알렉사 스마트 프로퍼티스(Alexa Smart Properties)의 일부로 새로운 솔루션을 발표했다.이 솔루션은 노인 생활 커뮤니티의 알렉사 스마트 프로퍼티스를 사용하여 알렉사를 통해 친구 및 가족과의 상호 작용을 가능하게 하여 노인 거주자의 외로움을 줄이는 것이며, 입주자(입원)가 직원 및 의사와 소통하고 시설 활동에 참여
네이버의 인공지능(AI) 음성기록 서비스 '클로바노트'가 가입자 100만명을 돌파했다.이는 작년 11월 서비스를 처음 선보인지 1년 만의 성과로, 가입자 수는 올해 1월 대비 13배로 증가하며 가파른 성장세를 이어가고 있다. 앱 누적 다운로드 수는 지난 달 100만 건을 돌파해 현재 110만 건을 기록 중이다.클로바노트는 딥러닝 기술을 활용해 녹음된 음성을 텍스트로 변환하는 STT(speech-to-text) 서비스로, 뛰어난 음성인식 품질과 편리한 사용성으로 인기를 얻고 있다.특히, 네이버가 자체 개발한 초대규모 AI '하이퍼클
KT가 대중 음악인이자 인기 라디오 DJ, 故신해철씨의 음성을 인공지능(AI) 기술로 복원됐다.KT가 자체 개발한 개인화 음성합성 기술(이하 P-TTS, Personalized Text to Speech)을 활용해 신해철씨가 2001년부터 2012년까지 11년간 진행했던 ‘신해철의 고스트스테이션’ 라디오방송 데이터를 AI에게 학습시켜 그의 목소리를 복원했다.P-TTS 기술은 딥러닝을 이용해 짧은 시간의 음성데이터로 특정 인물의 목소리를 합성해 낼 수 있다. KT의 AI는 단순하게 문장을 발음하는 수준을 넘어 발화 패턴이나 억양까지
인공지능(AI) 기반 음성 신호 분리 및 소음 감소 기술로 조용한 환경에서 혼란스러운 환경에 이르기까지 모든 음향 환경에서 원활한 음성 상호 작용을 촉진하는 이스라엘 음성 AI 스타트업 카르돔(Kardome)이 LG유플러스와의 계약을 통해 LG유플러스 매장 키오스크에 음성 활성화 소프트웨어를 설치할 예정이라고 11일 밝혔다.카르돔은 올해 말까지 전국에 있는 LG유플러스 매장 키오스크 2000개에 음성 활성화 기술을 적용할 예정이다. 이 음성 인식 기술은 실시간으로 여러 화자의 음성 신호를 동시에 향상시켜 타의 추종을 불허하는 정확도
음성 인식기기 및 제품용 첨단 원거리 음성 캡처 기술을 공급하는 ArkX래버러토리스(ArkX Laboratories, 이하 ‘ArkX랩스’)가 홍콩, 베이징, 선전, 상하이, 청두, 대만 등의 아시아태평양 시장에서 자사의 음성 솔루션 '에브리워드(EveryWord)'의 공급자로 레나(LENA LTD)를 선정했다.에브리워드의 첨단 오디오·음성 기술은 스마트한 음성 인식 제품 및 기기를 시장에 선보이려는 OEM 업체와 신생 기업들의 인간대인간 및 인간대기계 음성 인식과 우수한 성능을 뒷받침한다. ArkX 솔루션은 개발 비용을 줄이고 시
세계적으로 유명한 인공지능(AI) 인간, 버추얼 휴먼 등 실제 아이돌과 비슷한 비주얼의 가상 인간이 온라인과 오프라인을 넘나들며 큰 인기를 누리고 있으나 아이러니하게도 그들은 목소리를 가지고 있지 않다. 가장 유명한 인플루언서이자 가수인 릴 미켈라(Lil Miquela) 또한 싱어송라이터임에도 불구하고 그녀의 목소리는 AI가 아닌 실제 사람의 목소리이다. 캐릭터에 완벽함을 부여하기 위해 뒤에서 사람이 말을 하고 노래를 했던 반만 가상 인간이 아닌, 목소리부터 AI 기술을 이용한 100% AI 래퍼가 세계 최초로 인공지능 스타트업 네
머신러닝에서 특징 학습(Feature Learning) 또는 표현 학습(Representation learning)은 시스템이 원시 데이터에서 특징 감지 또는 분류에 필요한 표현을 자동으로 검색 할 수 있도록 하는 일련의 기술로 이것은 머신이 기능을 학습하고 특정 작업을 수행하는 데 사용할 수 있도록 한다.특히, 표현 학습(Representation learning)은 버트(BERT: 본지 기사 및 모델 다운) 및 알버트(ALBERT- 다운) 등의 자연어처리(NLP)에서 이미지 분석 및 분류(예: 인셉션 레이어/다운 및 SimCLR
많은 기업과 팀들은 전염병 이후 비대면에서 실제, 사무실로 다시 전환하기 시작하면서 유행병 이후 핸즈프리와 음성 제어 회의실의 필요성이 대두되고 있다.COVID-19 대유행 이전에도 가트너는 2022년까지 공식 회의의 40%가 인공지능(AI) 등 고급기술을 통한 가상 회의 공간이 촉진될 것이라고 예측하기도 했다.여기에, 화상 회의를 위한 통합 경험을 제공하고 개인과 개인에서 기업이나 단체의 회의실과 회의실을 연결해 회의공간을 확장하는 솔루션인 줌의 줌룸(Zoom Rooms)에 아마존 AI음성인식 플랫폼 알렉사(이하, Alexa)를
클로바 램프는 OCR, 이미지 비전, 음성 합성, 자연어 처리(NLP) 등 네이버의 AI 기술이 집약된 스마트 조명이다. 한글이나 영어로 된 어떤 책이든, 램프 아래 펼쳐 놓으면 글자를 인식해 자연스럽게 읽어주며, 제휴된 책은 자동으로 음원을 들려준다. 네이버는 클로바 램프에 파파고의 번역 엔진을 탑재해, 영어책을 실시간으로 번역해 주는 기능을 새롭게 업데이트했다고 16일 밝혔다. 램프 아래 영어책을 두고, ‘헤이 클로바 (이 페이지) 번역해줘/한글로 읽어줘’라고 명령하면, 해당 페이지의 내용을 인식하고, 한글로 번역해 합성음으로
미국 워싱턴대학교(University of Washington) 의과대학 연구팀은 KT 기가지니, 네이버 클로바, 아마존 에코(Amazon Echo), 구글 홈(Google Home) 등과 같은 스마트 스피커(이하, AI 스피커)가 가정에서 몇몇 헬스케어 문제를 모니터링 할 수 있음을 입증하는 연구를 성공적으로 도출했다.연구팀은 AI 스피커가 물리적 접촉 없이도 놀라운 진화로 헬스케어 분야의 심장 박동의 규칙·불규칙 여부를 모니터링 하는 용도로 사용될 수 있음을 증명한 것으로 심장 마비를 감지하거나 아기의 호흡을 모니터링 할 수 있
인공지능(AI) 음성 인식 기술을 사용하는 음성 사용자 인터페이스의 출현 및 통합은 스마트 스피커(이하, AI스피커)의 개발로 이어졌다.AI스피커는 추가 기능을 위해 여러 유형의 연결을 사용하는 무선 및 스마트 오디오 재생 장치이다. 여기에는 음성으로 통신하면서 사용자에게 맞춤형 정보 또는 서비스를 제공하는 소프트웨어가 포함되어 있다.AI스피커는 사용 편의성을 높이고, 여러 유형의 오디오 소스에 연결하고, 추가 기능을 제공하는 특별한 기능이 있으며, 많은 국가에서 널리 사용된다. COVID-19(코로나19) 상황과 같은 국제적인 문
음성을 통해 주변 스마트 기기와 양방향 의사소통하는 기술은 가장 직관성이 높다. 특히, AI 스피커 및 다양한 음성 인식 디바이스 시장의 증대로 센서의 중요성이 더욱 커지고 있다.현재 상용화된 막 사이의 정전 용량을 측정하는 마이크로폰과 대비하여 공진형 압전 음성 센서는 민감도가 높고 전원이 필요치 않으며 신호 대 잡음비가 우월하여 원거리 음성 인식이 가능하다.하지만, 유연압전 기반 공진형 음성 센서는 크기가 크다는 한계가 있어, 상용 전자회로와 시스템적으로 통합될 수 없고 모바일용 제품에 적용되지 못하였다.여기에, KAIST(총장