하나의 문서에서 여러 언어로 된 문자를 비롯하여 손글씨와 복잡한 그림까지 인식할 수 있는 문자 인식 기술

얼마전 본지에 로보틱 프로세스 자동화(RPA. Robotic Process Automation)를 적용한 '몇 날 며칠 걸리던 업무가, 로봇은 단 30분 만에 끝낸다! 라는 제목으로 기사가 보도된 적이 있다. RPA 시스템은 기업 업무에서 비용절감과 업무 효율성 증대에 가장 크게 기여할 수 있을 것으로 논의되고 있다. 이처럼 기업의 공통된 관심사로 떠오른 RPA는 비용절감과 업무의 효율화와 지속적이고 합리적인 생산성 향상을 추구하기 때문일 것이다.

이미 많은 기업들이 경험했겠지만 사람이 시스템이나 웹에 접속해 데이타를 읽고, 복사하고, 계산하는 단순 업무가 차지하는 비중이 상당히 높으며, 특히 비영업부서 고객업무 분야에서 도입이 활발하게 이뤄지고 있으나 정작 사무실에 있는 다양한 정보는 컴퓨터가 처리하기는 여간 어려운 것이 아니다. 특히 필기 서류 및 도면 정보의 내용 조사·확인·판단에는 전문성과 많은 일손을 걸쳐야 하는 반복 업무로 일부 인력에 치우쳐있어 다양한 인재의 활용이 어려운 것이 사실이다.

이에 업무의 효율화 및 경쟁력 강화를 위해 인공지능(AI)을 업무 프로세스에 적용, 문서 처리 및 전문 지식의 체계화 실현과 일손 부족을 해소시키기 위해 후지필림 그룹의 후지 제록스(Fuji Xerox)가 새로운 가치를 제공하는 스마트 워크 혁신(Smart Work Innovation) 전략으로 문서에 의한 커뮤니케이션 지원뿐만 아니라 문서화 된 정보 자체의 해석 및 활용을 위해 개발한 'Document AI' 활용한 3 개의 서비스를 제공해 많은 관심과 주목을 받고 있다. 

제공되는 'Document AI' 활용한 3 개의 서비스를 살펴보면, 우선 ▶고정밀 데이터 항목 서비스로 수발주 처리 및 결제 지불 처리, 가입자 등록 등에서 발생하는 대량의 연속 데이터 처리를 효율화하고 인력에 의한 실수를 줄여, 후 공정을 포함한 업무 전체의 효율화 및 업무 향상을 지원한다. 예를 들어, 금융업(은행/보험 회사)의 계좌 개설 및 결제 요청 등과 서비스업의 신청서와 주소 변경 신고 등의 정보를 컴퓨터 입력시 오기, 누락, 누출 등을 방지하기 위해 몇번이고 담당자에 의한 상호 확인을 실시하고 있는 가운데 본 서비스는 필기 장표에서 정확한 데이터 입력의 생산성을 약 2 배 이상 높이고 인원을 절반으로 줄일 수 있었다고 한다. 이 서비스는 금융업뿐만 아니라 관공서, 의료, 유통 등 다양한 업종에 적용이 가능하다.

그림은 고정밀 '데이터 항목 서비스'의 개념도로 사람과 AI가 문자 인식을 협력하는 것으로, 높은 정확성과 업무 처리 속도 증진과 비용절감(사진:후지제록스, 편집:본지)
그림은 고정밀 '데이터 항목 서비스'의 개념도로 사람과 AI가 문자 인식을 협력하는 것으로, 높은 정확성과 업무 처리 속도 증진과 비용절감(자료:후지제록스, 편집:본지)

두번째로 도면의 문자 정보를 식별하는 고유의 레이아웃 분석과 문자 인식 기술로 전처리없이 지정한 문자열 정보를 효율적으로 추출하는 ▶도면 정보 추출 서비스로 도면에 기재된 부품 번호와 기술 표준 번호 및 기타 기술 문서 관련 업무 등의 프로세스를 개선하고 설계자의 작업을 대폭 줄이고, 고품질의 업무 지원 환경을 제공한다. 예를 들어, 조립 및 가공업에서는 도면에 기재되어 있는 부품 번호와 크기 등의 제반 정보를 육안으로 확인하는 과정에서 아주 작은 오류로 실제 프로세스에서 전혀 다른 결과물로 발전한다. 제조업에서 본 서비스는 엔지니어가 확인 작업에 소요되는 기간을 절반으로 줄일 수 있었으며, 이 서비스는 제조업뿐만 아니라 건설업과 통신업 등의 보전 업무에도 적용 가능하다.

세번째로는 문서에 포함된 단어를 자연 언어 처리 기술을 활용하여 분석하고 여러 문서 사이의 단어와 단어의 의미적인 관계성을 부여함으로서 전문 지식의 체계화를 지원하는 ▶전문 지식 체계화 서비스로 방대한 전문적인 문서를 참조하면서 지식과 경험을 바탕으로 실시하는 쿼리 지원과 신청서 작성 업무 등 전문적인 업무를 지원하는 환경을 제공한다. 예를 들어, 제조업에서 설계 변경되었을 때, 수출 대상 국가의 규정을 확인하는 업무 및 플랜트 설비 산업의 보전 업무의 기술 문의 대응 등에 적용이 가능하다. 이러한 업무는 전문 지식을 가진 직원에 의해 관리했으나 이 시스템으로 관련된 방대한 문서를 특별한 지식이 없는 사람도 업무에 대응하는 것이 가능해졌다.

이처럼 후지 제록스의 인공지능 'Document AI'는 사무실에 축적된 문서에서 가치 있는 정보을 추출하고 업무에서의 활용을 실현하는 독자적인 인공지능 기술로 인터넷에서 유통되는 빅데이터를 처리하고 모델화하는 일반적인 AI의 처리 방식과 달리 사무실 안의 질 높은 데이터를 사용하기 때문에 비교적 적은 데이터양에서도 고도의 처리가 가능한 것이다.

참고로 그 중 가장 중요한 인간 시각 정보 처리 메커니즘을 이용한 후지 제록스의 독자적인 'AI 문자 인식' 기술에 대해서(아래) 알아본다.

참고) 후지 제록스 AI 문자 인식 기술 개요

늘 접하는 화이트보드 나 노트북 등 장치로 작성된 문자를 인식하는 것은 아직도 해결해야 할 어려운 과제이며, 개별 언어에 대한 텍스트가 깔끔하게 작성된 경우에도 영어 및 중국어 등 복합적으로 다 언어가 포함된 문서에서 문자 인식은 더욱 어렵다. 이러한 문제를 해결하기 위해 후지 제록스는 인간의 시각 정보 처리 메커니즘을 채택하여 하나의 문서에서 여러 언어로 된 문자를 비롯하여 손글씨를 인식할 수 있는 문자 인식 기술을 개발한 것이다.

사진설명 #그림 1a : 방위 선택성을 모식적으로 나타낸 그림으로 V1세포가 특이적으로 반응하는 선분의 방향을 최적 방향으로 한다. 이것과 다른 방향을 갖고 선분의 자극을 입력해도 반응하지 않는다. #그림 1(b):위치 불변성을 모식적으로 나타낸 그림으로 V1세포는 최적의 기울기를 가진 선분이면 수용 영역 내의 어느 장소라도 반응한다. 양쪽 영역에 걸치는 큰 패턴에 대해서는 전혀 반응하지 않는다. #그림 1(c): 방향 교차 억제성을 나타낸 모식도로 V1세포는 최적 방향과 크게 다른 방향의 자극을 포개면 최적 자극에 대한 반응이 억제된다.
사진설명 #그림 1a : 방위 선택성을 모식적으로 나타낸 그림으로 V1세포가 특이적으로 반응하는 (線分)의 방향을 최적 방향으로 한다. 이것과 다른 방향을 갖고 선분의 자극을 입력해도 반응하지 않는다. #그림 1(b):위치 불변성을 모식적으로 나타낸 그림으로 V1세포는 최적의 기울기를 가진 선분이면 수용 영역 내의 어느 장소라도 반응한다. 양쪽 영역에 걸치는 큰 패턴에 대해서는 전혀 반응하지 않는다. #그림 1(c): 방향 교차 억제성을 나타낸 모식도로 V1세포는 최적 방향과 크게 다른 방향의 자극을 포개면 최적 자극에 대한 반응이 억제된다.

인간 시각 정보 처리 메커니즘을 이용한 후지 제록스 AI 문자 인식 기술에서 시각 정보는 망막을 같이 대뇌 제1차 시각령(V1)로 불리는 부위에 전달된다. 위 그림 1, V1에서는 특정의 기울기를 가진 선분(線分)에 선택적으로 응답하는 방위 선택성(그림 1a)입력 선분의 위치가 어긋났을 때도 응답하는 위치 불변성(그림 1b), 최적 방향과 크게 다른 방향의 선분이 되풀이되면 반응이 억제되는 방위 교차 억제성(그림 1c)을 가지고 있다. 시각 정보는 아래 그림 2에서 V1의 뒤 두개의 선분을 조합한 십자, 코너 등에 반응하는 제2차 시각령(V2)보다 복잡한 형상을 인식하는 제 4차 시각령(V4)을 거쳐서, 하측두 피질(IT, Inferior Temporal)에 도달한다. 이처럼 인간의 뇌는 계층적인 처리를 통해서, 선분 같은 단순한 형상에서 문자나 얼굴 등의 복잡한 형상까지 인식한다.

그림 2 : 시각 정보 처리 의 개요 망막에서 얻은 정보는 일차 시각 피질 (V1), V2, V4로 전송 된 다음 마침내 열등 피질 (IT) 피질로 전송됩니다. 이것은 간단하고 복잡한 수치가 모두 인식되는 방법이라고 생각 됩니다.
그림 2 : 시각 정보 처리의 개요 망막에서 얻은 정보는 일차 시각 피질 V1, V2, V4로 전송된 다음 하측두 피질(IT)로 전송된다. 이것은 간단하고 복잡한 수치가 모두 인식되는 방법

아래 그림 3은 시각적 정보를 처리하는 메커니즘의 문자 인식 방법의 전체 구성을 보여주 것으로 입력 이미지의 특징은 먼저 컨볼루션(convolution) 단위 및 서브 샘플링 단위의 레이어에 의해 추출되어 V1 및 V2가 시각적 정보를 인간의 뇌가 처리하는 것과 같은 유사한 메커니즘을 구현한다. 다음 '문자 분류자(판정)'에서 각 문자는 뇌의 처리를 모방하여 최종적으로 결정된다. 문자를 포함하는 이미지는 먼저 컨볼루션 유닛에 입력되고 상승 연산에 의해서 특징을 추출하며, 회선에 사용되는 필터는 다양한 문자 유형을 처리하여 학습을 통해 진화할 수 있다. 예를 들어, 컨볼루션 유닛 1(뇌의 V1에 해당)에서 선분을 추출하는 데 사용되는 필터는 다양한 유형의 선분을 처리할 수 ​​있도록 학습하고 진화된다.

그림 3 : 개발 된 문자 인식 시스템의 구조
그림 3 : 개발된 문자 인식 시스템의 구조
그림 4 : 서브 샘플링 유닛의 구조
그림 4 : 서브 샘플링 유닛의 구조

서브 샘플링 유닛에서(그림 4) 최초의 시각 에너지 모델로   작은 불균일한 위치 차이를 엄격히 구별하지 않도록 위치 불변량을 가능하게 하며, '교차 배향 억제 모델은 최적의 교차 배향 억제를 가능하게 한다 컨벌루션 유닛과 서브 샘플링 유닛의 다수의 세트를 통해 정보를 전송함으로써, 정보는 V1 및 V2에서  뇌의 처리를 모방하면서 수행된 처리와 유사한 방식으로 처리되어 간단한 형상에서 더 복잡한 형상까지 추출하고 마지막으로, 문자 분류기는 추출된 특징에 기초하여 문자를 식별한다. 또한, 분류기는 학습이 가능하고, 결과적으로 문자 인식률을 향상시킬 수 있다. 이런 식으로 인식 시스템은 인간의 뇌와 마찬가지로 학습을 통해 인식 능력을 향상시킬 수 있다. 결과적으로 손으로 쓴 문자와 다 언어의 문자를 인식할 수 있게 되는 것이다.

그림 5a : 평가된 문자
그림 5a : 평가된 문자
그림 5b : 각 가중치 등급에 대한 인식률 그림은 등급이 4와 5 인 문자와 2와 ​​3의 문자의 인식률을 보여준다.
그림 5b : 각 가중치 등급에 대한 인식률로 그림은 등급이 4와 5인 문자와 2와 ​​3의 문자의 인식률

그림 5는 시각 정보 처리 메커니즘을 사용하는 문자 인식 시스템과 기존의 문자 인식 시스템을 비교한 것이다. 그림 5a는 평가된 자유롭게 쓰여진 문자와 그림 5b는 평가 결과를 나타내고 있다. 두 시스템 모두 깔끔하게 작성된 문자(4~5등급)에 대해 높은 수준의 인식을 보여 주지만, 2~3 등급의 문자는 기존 Google 시스템 보다 인식률이 높다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지