이미지:본지
이미지:본지

국내외 많은 연구 및 과학자들은 세상의 다양한 정보를 체계화시키는데 그 역할을 다하고 있지만 살아있는 생물종 정보를 관리하는 문제만큼은 쉽게 풀지 못하고 있다.

생물종 정보는 정형화된 정보를 다루는 일반적인 데이터 시스템과 달리 분류학적 연구결과에 따라 변경되는 학명(정명)의 관리를 필요로 하고 있으며 이와 함께 연관 관계를 갖는 데이터도 동시에 처리가 되어야 함으로 살아있는 데이터로 표현되기도 한다.

그렇기에 관리와 표준화가 어렵고 국제식물보전기구인 BGCI(Botanic Gardens Conservation International)에서도 20년 동안 확실한 해결책을 제시하지 못하고 있는 실정이다.

생물종 정보가 중요한 이유는 지구상에 살아있는 모든 생물종 정보가 표준화되어야 생물보전에 따른 각 나라별 전략과 정책수립이 용이하다. 또한, 2018년부터 발효된 나고야의정서에 따른 국내 자생 생물자원의 주권행사는 국익에도 많은 도움을 줄 수 있다.

이러한 문제점을 국내의 AI기반 생물유전체 분석기업인 인포보스(공동대표 손장혁, 박종선)가 2015년부터 환경부 국립생물자원관의 국가생물종목록 구축에 참여하여 생물종 정보 데이터베이스의 난제를 해결해 관련 기업과 기관의 주목을 받고 있다. 

인포보스가 참여한 국가생물종목록은 국립생물자원관에서 ‘생물다양성 보전 및 이용에 관한 법률’에 의한 프로젝트 사업으로 국내 서식하는 모든 생물종 정보를 관리하기 위해 시작되었으며, 각종별 학명(정명)과 함께 다양한 이명(Synonym)을 포함하고 있다.

국가생물종목록 데이터베이스의 주요 엔터티 및 관계도
국가생물종목록 데이터베이스의 주요 엔터티 및 관계도

생물학에서 학명은 절대적인 이름이 아닌 연구 결과에 따라 지속적으로 변하는데, 이 같은 학명을 추적, 관리하기 위해 한국형 생물종목록 연번체계(Korean Taxonomic Serial Number; KTSN)의 고유번호인 분류군(Taxon)정보를, 상위 분류군 정보(과-목-강-문-계 등)의 위계구조와 함께 효율적으로 관리할 수 있도록 설계하여 생물종 데이터베이스 구축의 어려움을 해결하였다.

또한, 학명의 변화 이력을 포함하고 있는 이명, 기본명(Basionym), 오타(Typo) 및 비합법명(Illegitimate name)도 통합 관리가 가능하며, 분류학적 정보와 관련 참고문헌(원기재문 포함) 정보도 함께 관리할 수 있다고 전했다(위 그림 참조)

국가생물종목록은 빅데이터 시대에 걸맞게 이종데이터(생물학 정보, 한의학 정보 및 유전체정보)와 결합시 다양한 분야에서의 활용도가 높을 것으로 기대하고 있다고 전했다. 현재, 국가생물종목록은 인포보스가 개발한 세계 최대 식물 게놈 데이터베이스(Plant Genome Database; http://www.plantgenome.info/; Park et al., under review)에서 국내 자생종들을 분류하고 식별하는데 사용되고 있으며 다양한 생물학적 정보를 통합하고 분석하는데 활용되고 있다.

인포보스의 박종선 대표는 “국가적 생물보전을 위한 전략수립과 동시에 나고야 의정서에 의한 생물자원 주권확보, 나아가 바이오산업의 전 분야에 걸쳐 활용이 가능하다”고 전하며, “생물정보의 다양한 활용은 미래산업에 한 축이 될 것으로 전망하고 있다”고 전했다.

한편, 이러한 인포보스의 기술적 설계는 KCI(한국학술지인용색인) 등재 학술지인 국립생물자원관(Journal of Species Research) 지난 8월호에 시스템 소개 논문이 개제되었다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지