PGD는 현재 638종으로부터 총 1986개의 식물 게놈을 보유하고 있다. 수집된 게놈 총 길이는 무려 939,574,681,579 bp로 인간 게놈 길이(3.2Gbp)의 약 293배에 달한다.

세계 최대 식물 게놈 데이터베이스 Plant Genome Database' 홈페이지(www.plantgenome.info/) 캡처
세계 최대 식물 게놈 데이터베이스 Plant Genome Database' 홈페이지(www.plantgenome.info/) 캡처

인공지능(AI) 기반 생물 유전체 빅데이터 분석기업 인포보스(손장혁, 박종선 공동대표)가 빅데이터, 인공지능의 4차산업에 있어 유전체 빅데이터를 활용한 다양한 산업이 각광받고 있는 가운데 최근 세계 최대 식물 게놈 데이터베이스 'Plant Genome Database(이하, PGD)'를 구축하고 모든 데이터 접근이 가능한 무료 웹서비스로 공개되어 관련 업계에 주목을 받고 있다.

PGD는 GenomeArchive®에서 제공되는 표준화된 구조를 바탕으로 자료 접근이 가능한 식물 게놈 데이터를 통합한 데이터베이스로, 주석이 된 정보들 또한 제공하며 BLAST를 포함한 여러 생물정보학 도구들을 사용할 수 있다.

PGD는 현재 638종으로부터 총 1986개의 식물 게놈을 보유하고 있다. 수집된 게놈 총 길이는 무려 939,574,681,579 bp로 인간 게놈 길이(3.2Gbp)의 약 293배에 달한다.

PGD의 메인 페이지에서는 가장 원시적인 식물인 회청조식물(Glaucophyte)부터 속씨식물(Angiosperm)까지 분류학 순서대로 나열되어 있으며, 각 분류별로 게놈의 양이 표시된다. 또한, 통합검색 및 BLAST 검색을 수행할 수 있다. 게놈 브라우저 탭은 시퀀스, 유전자, 단백질, tRNA, miRNA등을 포함한 정보를 제공하고 있다. 각 단백질별 상세 화면에서는 InterProScan에 예측된 기능도메인과, TMHMM에 의해 예측된 막횡단 헬릭스(transmembrane helix) 정보도 같이 조회된다. 또한, PGD는 36,946,879 개의 단순반복염기서열 (Simple Sequence Repeat) 데이터를 같이 제공해준다.

PGD는 유저들이 웹 상에서 대상(object; 예, 유전체, 염기서열 등)을 저장하고, 분석 프로그램을 구동할 수 있는 GlobalScrap®이 적용되어 있다. GlobalScrap®는 웹에서 다양한 형태의 정보를 관리하고 BLAST와 같은 분석 도구들을 실행할 수 있게 해주는 웹 기반 플랫폼이다. PGD에서 제공하는 BLAST 포함 분석 프로그램들은 그 구동 기록을 관리하는 기능을 제공한다.

한편, PGD는 현재 4년간 유지/관리되고 있으며 총 8번의 업데이트를 수행하였다. 향후, 세포내 단백질 위치를 예측하는 TargetP, 분비 단백질을 예측하는 SignalP 등의 도구를 추가하고, 기존 기능을 고도화 할 예정이다. 현재, PGD는 국제 저널인 Bioinformatics의 Application Notes 부문에 심사 중이다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지