아랍어 역사 말뭉치를 디지털화해 인공지능 커뮤니티는 물론 온라인 플랫폼과 스마트폰 애플리케이션으로 전 세계 어디서든 손쉽게 이용할 수 있도록

샤르자 국왕이 아랍어 역사 말뭉치 초판 사본에 서명하는 모습(사진:샤르자 정부 미디어)
샤르자 국왕이 아랍어 역사 말뭉치 초판 사본에 서명하는 모습(사진:샤르자 정부 미디어)

아랍에미리트 최고통치자위원회 회원이자 샤르자 국왕인 셰이크 술탄 빈 무함마드 알 카시미(Sheikh Dr. Sultan bin Muhammad Al Qasimi)가 현지시간 2일 샤르자엑스포센터에서 개최된 제40회 샤르자국제도서전(Sharjah International Book Fair, SIBF) 개막식에서 아랍어 역사 말뭉치(Corpus) 17권을 공개했다

아랍어 역사 말뭉치는 1700년에 걸친 아랍어의 변화사를 연대순으로 기록한 최초의 프로젝트로서 아랍권의 또 다른 역사·문화적 위업으로 평가 받고 있다.

샤르자 국왕은 아랍어 역사 말뭉치를 디지털화해 인공지능(AI) 커뮤니티는 물론 온라인 플랫폼과 스마트폰 애플리케이션으로 전 세계 어디서든 손쉽게 이용할 수 있도록 조처했다고 전하며, 아랍어 역사 말뭉치 초판 사본에 서명했다.

이 말뭉치 17권은 전 세계 어디서든 이용할 수 있도록 전용 웹사이트를 개설할 예정이다. 

샤르자 국왕

이날 샤르자 국왕은 기조연설을 통해 “아랍어는 가장 오래된 언어 가운데 하나”라며 “아랍어 자모의 뿌리와 의미를 문서로 남기기 위해 수년간 노고를 아끼지 않은 전문가들을 치하한다”고 말했다.

이어 “우리는 언어의 문서화에 존재하는 공백을 메우는 작업에 착수했다”며 “많은 아랍어 단체들의 노력이 마침내 결실을 맺어 이 아름다운 말뭉치가 빛을 보게 됐다”고 덧붙였다.

또 샤르자 국왕은 “아랍어 자모를 세세히 기록한 말뭉치는 학생, 연구원, 언어학자들에게 유익한 교재가 되고 모든 언어광들에게 지대한 영향을 미칠 것”이라며 “이 정도로 나의 관심이나 아랍 언어학계의 관심을 불러 모은 프로젝트는 이제껏 없었다는 내 말은 결코 과장이 아니다”고 말했다.

첫 아랍어 역사 말뭉치는 5개 아랍어 문자(함자(Hamza), 바(ba), 타(ta), 싸(tha), 쥠(jeem))의 변화 양상을 이슬람 이전 시대, 이슬람 시대(이슬람력 1~132년), 아바스 왕조(이슬람력 133~656년), 현대(이슬람력 1214~현재)별로 조명했다.

아랍어 역사 말뭉치는 샤르자 프로젝트 집행위원회의 아랍어 연구소와 이집트 카이로 아랍과학언어연구소협회의 감독 아래 아랍권 10개 아랍어 연구소 출신의 수많은 연구원, 언어학자, 편집자, 전문가들이 합심해 일군 결과다.

4년간 비문과 고고학적 발견물을 포함한 역사 문헌, 필사본, 아랍어 서적 2만 권에서 수집하고 디지털화한 자료 데이터베이스를 활용해 말뭉치를 구축했다.

아랍어 역사 말뭉치는 아랍어 어휘의 역사, 각 단어의 기원, 음성과 음운의 변화로 파생된 단어들에 대한 주요 정보를 담고 있다. 단어의 역사를 뒤쫓아 단어를 처음 사용한 사람을 알아보고, 이슬람 이전 시대부터 현재에 이르기까지 단어가 어떻게 변화했는지 들여다본다.

마호메트 언행록(Hadith of the Prophet)과 코란(Holy Quran)의 살아 숨 쉬는 운문을 인용했다는 점에서 다른 사전들과 차별화 된다. 아랍어 역사 말뭉치는 아랍어 숙어와 표현이 세기별로 어떻게 달라졌는지 살펴본다.

또 아랍어에 유입된 새로운 단어와 더 이상 사용하지 않는 단어를 기록하고 그 이유를 차근차근 설명한다. 문법, 형태론, 문헌학, 음성학, 수사학, 운문을 비롯한 언어학과 직접적으로 연관된 문화와 과학의 발전 양상도 검토한다.

아랍어 역사 말뭉치는 아랍어 어휘가 히브리어, 아카드어, 아비시니아어, 암하라어와 같은 여타 셈족어에 어떤 영향을 미쳤는지 포괄적으로 검토한다. 전문가 위원회가 이번 프로젝트에서 사용한 참고 문헌·도서와 예문을 통해 아랍어 단어와 기타 셈족어 상응 단어의 유사점과 차이점을 기술했다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지