인공지능 기반 이미지 파일 내 민감·개인정보 필터링 기술 ‘AI OCR’도 선봬

개인정보보호 SW 전문 기업 지란지교데이터(대표 조원희)가 오는 4월 13일부터 15일까지 사흘간 서울 코엑스에서 350여개 업체, 450여부스 규모로 개최되는 '제5회 국제인공지능대전(AI EXPO KOREA 2022)'에 참가, 국내 최초로 딥러닝(DL) 기반 비정형 텍스트 내 민감·개인정보 탐지 및 비식별 처리 기술을 소개한다.

이 기술은 민감·개인정보 비식별 조치 솔루션 ‘아이디필터(IDFILTER)’에 적용할 수 있다. 더불어 지란지교데이터는 인공지능 기반 이미지 내 민감·개인정보 필터링 기술 ‘AI OCR(Optical Character Recognition)’도 선보인다.

지란지교데이터가 국내 최초로 개발한 ‘딥러닝(DL) 기반 비정형 텍스트 내 민감·개인정보 탐지 및 비식별 처리 기술’은 조직이 보유한 비정형 텍스트를 딥러닝으로 학습 및 분석해 맥락을 인지하고, 민감·개인정보를 인식해 비식별 처리할 수 있다.

기존 개인정보 탐지 기술의 경우 패턴을 기반으로 하기 때문에 개인정보 식별이 용이하지 않다는 단점이 지적된다. 이 기술은 문장 및 대화의 맥락을 인지하기 때문에 기존 기술의 단점을 보완할 수 있다.

이 기술은 AI 챗봇 데이터, 상담원 녹취록 데이터 등 비정형 텍스트를 보유한 기업이 도입하여 활용 할수 있으며, 지란지교데이터의 민감·개인정보 비식별 조치 솔루션 ‘아이디필터(IDFILTER)’에 적용 가능하다.

지란지교데이터 비정형 텍스트 AI 개인정보 탐지 및 비식별 기술
지란지교데이터 비정형 텍스트 AI 개인정보 탐지 및 비식별 기술

‘아이디필터’는 관리자가 사전에 등록해 놓은 민감·개인정보 패턴을 기반으로 개인정보를 빠르게 탐지 및 비식별화한다. 데이터 분포도 및 위험도 시뮬레이션을 통해 활용 데이터의 재식별 방지를 위한 후속 조치도 가능하다. 특히 ‘아이디필터’는 딥러닝 기반으로 비정형 텍스트를 분석, 문서의 맥락을 인지하고 민감·개인정보를 인식해 비식별 처리할 수 있다.

최근 지란지교데이터는 ‘아이디필터’ 기능 향상에 초점을 맞추고 있다. 특히 DL 기반 비정형 텍스트 민감·개인정보 탐지 기술은 물론, ▲전용 송수신 에이전트를 통한 원본데이터 및 비식별 데이터 암호화 업로드/다운로드 기능 제공 ▲사전 결합 기능 ▲시계열 분석 기능 다양한 데이터 입출력 개선을 통해 데이터 이동 처리 기능 향상(PC, 스토리지, SFTP, DB) ▲K-익명성 측정 기능 ▲사전/사후 개인정보 검사 기능 ▲비식별 조치 알고리즘 22개로 증가 등 기능 업그레이드를 진행했다.

개인정보 비식별조치 솔루션 ‘아이디필터’ 시스템 구성도
개인정보 비식별조치 솔루션 ‘아이디필터’ 시스템 구성도

‘아이디필터’는 지란지교데이터가 개인정보보호 솔루션 제품군 ‘필터(FILTER) 시리즈’로 축적한 16년 이상의 개인정보 탐지 기술이 반영된 것이 특징이다.

지란지교데이터는 한국전자통신연구원(ETRI)으로부터 비식별 알고리즘 기술을 이전받아 비식별 조치 기능의 완성도 및 안전성을 높였다. ‘아이디필터’는 출시 전부터 ‘2020 빅데이터 구축 사업’에서 비식별화 엔진으로 활용된 바 있으며, 모비젠 등 다수의 빅데이터 분석 전문 기업에서 활용하고 있다.

‘AI OCR’ 기술은 다양한 유형의 이미지에 포함된 문자를 편집 가능한 데이터로 변환한다. 지란지교데이터가 보유한 AI OCR 기술의 특징은 ▲AI 기반 정확한 문자 인식 ▲다각도 이미지 인식 ▲다양한 이미지 파일 포맷 및 문서 내 이미지 지원 ▲해상도 처리 ▲고속 이미지 검출 처리 등이다.

최근에는 △다양한 전처리 기법 지원(이미지 트림, 이미지라인 제거, 이미지 이진화, 회전보정, 노이즈 제거, 사이즈 조정 등) △딥러닝을 이용한 텍스트 객체 감지 및 텍스트 객체 인식 기법 적용 등이 업그레이드 됐다.

‘AI OCR’ 기술은 지란지교데이터의 개인정보보호 솔루션 제품군 ‘필터(FILTER) 시리즈’에 적용돼, 이미지 파일에 포함된 민감·개인정보가 유출되는 것을 차단한다.

지란지교데이터 AI OCR 기술
지란지교데이터 AI OCR 기술

개인정보보호 SW 전문 기업 지란지교데이터는 개인정보보호 솔루션 제품군 '필터 시리즈'를 개발 및 공급하고 있다. '필터 시리즈'는 ▲PC 민감·개인정보 유출방지(DLP; Data Loss Prevention) 및 취약점 점검 솔루션 '피씨필터(PCFILTER)' ▲민감·개인정보 및 유해 웹 게시물 필터링 솔루션 '웹필터(WEBFILTER)' ▲서버 민감·개인정보 진단 솔루션 '서버필터(SERVERFILTER)' ▲ 민감·개인정보 비식별 조치 솔루션 '아이디필터(IDFILTER)' 등으로 구성돼 있다.

한편, 지란지교데이터는 '필터 시리즈'를 약 정부/공공/기업/의료/학교 등 1만여 개 기관 및 기업에 공급했으며, 약 200만 명의 유저를 확보하고 있다. 더불어 지란지교데이터는 글로벌 위협 인텔리전스 SDK '사이렌(CYREN)'의 아시아태평양 지역 공식 파트너로 활동하고 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지