주변 세계를 경험하고 삶과 일하는 방식을 변화시키고 향상시키는데 도움을 줄 것

사물을 인식하고 즉시 말로 대답해주는 AI(이미지:본지DB)
사물을 인식하고 즉시 말로 대답해주는 AI(이미지:본지DB)

인공지능으로 시각장애인을 돕는 방법들... 최근 시각장애인에게는 포괄적이고 생산적인 삶을 영위할 수 있도록 하는 이미지 인식, 자연어 처리 및 자연어 생성 기능과 같은 AI 기술이 보다 접근이 쉬운 스마트폰 기반으로 제공되고 있으며, 인공지능이 시각장애인의 주변 세계를 경험하고 삶과 일하는 방식을 변화시키고 향상시키는데 도움을 주는 위해 부단히 시도되고 있다.

방의 인원수, 나이, 성별, 심지어 표정을 기반으로 한 상대 감정에 대해서도 사용자에게 내레이션을 제공하는 앱(APP)인 엑센츄어의 '드리슈티(Drishti: 본지기사 참조)', 2010년 암논 샤슈아(Amnon Shashua) 교수와 지브 아비람(Ziv Aviram)이 공동으로 설립한 오켐(OrCam)이 개발한 AI 인공 시각(artificial vision) 웨어러블 디바이스인 '오캠 마이아이2(OrCam MyEye 2.0 : 본지기사 참조)’는 신문, 책, 레스토랑 메뉴, 간판, 제품 라벨, 컴퓨터 및 스마트폰 화면 등 인쇄된 문자 또는 디지털 텍스트를 즉시 읽어준다.

특히 마이크로소프트 AI 리서치(Microsoft AI & Research)에서 개발한 응용 프로그램인 AI를 살펴보면 그 대답이 있다. 본질적으로 시각장애인 또는 시력이 약한 사용자를 위해 스마트폰을 사용하여 물건이나 색상에서 달러 지폐 또는 문서에 이르기까지 모든 것을 식별 할 수 있다. 지난해 MS ‘시잉 AI(Seeing AI)’ 앱이 출시된 이래로 이 앱은 15 만회 다운로드 되어 5 백만 건의 작업에 사용되었다고 한다.

MS의 수석 데이터 과학자인 아니르드 코울(Anirudh Koul)은 지난 3월 산호세에서 개최된 엔비디아 GPU 기술 컨퍼런스에서 미숙아로 태어나 인큐베이터에서 산소 과다 공급으로 미숙아 망막증으로 시력을 잃어, 청각을 토대로 음악을 만들고 시각장애인의 역경을 이겨낸 세계적인 가수 스티비 원더(Stevie Wonder)는 매일 그 앱을 사용한다고 말하기도 했다. 또 코울은 라이브 데모를 통해 시잉 AI 앱이 얼마나 강력한지를 보여 줬다.

시각장애인에게 사람을 인식하고 내레이션을 제공하는 엑센츄어의 앱(APP)인 '드리슈티(Drishti)' 인식이미지(사진:본지DB)
시각장애인에게 사람을 인식하고 내레이션을 제공하는 엑센츄어의 앱(APP)인 '드리슈티(Drishti)' 인식이미지(사진:본지DB)

이후 MS 코울팀은 스마트 안경사용을 실험한 끝에 응용 프로그램 자체부터 재 작업하기로 결정하고 네트워크의 로컬 학습은 엔비디아 TITAN X GPU 에서 수행되었으며, 무거울 때는 엔비디아 Tesla P100 GPU를 실행하는 Azure 클라우드 인스턴스로 전달되었다. 프레임 별 분석은 각 부분이 발생할 위치를 결정하고 학습은 앱이 식별해야하는 이미지의 불확실한 특성을 반영하고 모델이 모든 유사 콘텐츠에 노출되면 결국 모든 사진을 식별하는 데 필요한 최소 매개 변수를 계산할 수 있었으며, 앱은 더 많이 사용될수록 더 똑똑하고 정확해진다.

MS는 2014 년 2 월부터 주변 객체를 찾고 식별할 수 있는 컨볼루션 네트워크(convolutional neural network, CNN)를 적용해 만들기 시작했다. 그러나 대기 시간이 10 초로 빠른 의사 결정을 하려는 사람을 돕기에는 한계가 있었으며, 이듬해 MS는 13,000 명의 참가자를 끌어 모으는 해커톤(hackathon)을 후원하며 사용자의 머리에 휴대폰을 장착하는 두 번째 시도를 이끌기도 했다.

이런 가운데 국내 연구진 SK텔레콤 AI센터 T-Brain 연구팀이 시각장애인들이 직접 촬영한 이미지에 대한 질문에 답할 수 있는 AI로 탁월한 사물 인식 질의응답 기술로 컴퓨터 비전 국제학회인 ECCV(European Conference on Computer Vision)가 개최한 ‘비즈위즈 그랜드 챌린지(VizWiz Grand Challenge 2018)’서 주목을 받으면서 지난 14일(현지시각) 독일 뮌헨에서 준우승에 올랐다고 한다. 물론 관련 많은 기술들이 국내에서도 개발 되고 있지만 이번 수상을 계기로 국내에서도 시각장애인 위한 인공지능(AI) 개발에 첫 발을 내딛은 것이다.

SK텔레콤 AI센터 T-Brain 김진화 박사가 ‘VizWiz Grand Challenge 2018’에서 수상자 발표로 연구 내용을 소개하고 있다.(사진:SKT)
SK텔레콤 AI센터 T-Brain 김진화 박사가 ‘VizWiz Grand Challenge 2018’에서 수상자 발표로 연구 내용을 소개하고 있다.(사진:SKT)

‘VizWiz Grand Challenge 2018’은 미국 텍사스 대학교 오스틴(University of Texas at Austin)이 구축한 데이터셋을 활용해, 시작장애인들이 직접 촬영한 이미지에 대하여 다양한 질문에 적절한 응답을 평가하는 대회이다. 이번 대회의 가장 큰 특징은 통상 정제된 이미지와 질문에 답하는 기존 Visual Question Answering(VQA) 방식이 아닌, 1만명 이상의 시각장애인들이 직접 스마트폰으로 촬영한 사진과 이에 대한 질문에 대해 답하는 것이다. 

시각장애인들이 직접 촬영한 이미지는 그들의 신체적 제약으로 인해 사진이 빛 번짐은 물론 비뚤어지거나 때로는 질문과 관련 없는 이미지 등이 다수 섞여있어 정제된 이미지를 인식하는 것보다 더 높은 수준의 인식능력이 필요하다. 이번 ‘VizWiz Grand Challenge 2018’에서 T-Brain 최용석, 홍성은 박사와 함께 연구팀을 이끈 김진화 박사는 “이번 대회는 통상 주최측이 제시하는 정형화된 이미지 데이터를 인식하는 방식이 아닌, 실제 시각장애인들이 궁금해하는 사진 등 현실 데이터에 대한 인식률을 높였다는 데 큰 의미가 있다”며, “특히 이번 수상을 계기로 SK텔레콤이 사회적 약자인 시각장애인을 위한 인공지능 프로그램 개발에 의미있는 첫 발을 내딛게 되었다”고 전했다. 

SK텔레콤 T-Brain 김지원 담당(상무)은 “이번 VizWiz 수상을 통해 SK텔레콤의 앞선 AI 기술력을 선보이게 되어 기쁘다”며 “향후에도 AI와 관련된 기계학습(Machine Learning)을 비롯해 AI 선행 기술 및 기반 기술 연구에 더욱 매진하겠다”고 밝혔으며, 이번 VizWiz 대회에서 준우승한 알고리즘 관련 연구 논문은 오늘 12월 캐나다 몬트리올에서 열리는 인공지능(기계학습) 분야 세계 최고 권위 국제학술대회인 신경정보처리시스템 국제학회(NIPS)에서 발표될 예정이다.

한편 AI 기술을 사용하여 인간의 능력을 향상시켜 자신과 주변 세계를 위해 더 많은 것을 성취할 수 있는 방법들 가운데 이처럼 시각 장애인이 보다 포괄적이고 생산적인 삶을 영위할 수 있도록 하는 이미지 인식, 자연어 처리 및 자연어 생성 기능과 같은 인공지능(AI) 기술을 보다 접근이 쉬운 방법과 스마트폰 기반으로 제공하면서 AI가 어떻게 복잡한 인간 문제를 해결하고 향상시키기 위한 좋은 용도로 그리고 시각장애인이나 저시력장애인이 주변 세계를 경험하고 삶과 일하는 방식을 변화시키고 향상시키는데 도움을 줄 것으로 기대된다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지