코로나19(CORD-19) 이미지(사진:WHO)
코로나19(CORD-19) 이미지(사진:WHO)

2020년 코로나 바이러스(SARS-Cov-2)의 대발병은 여러 분야 과학자들의 주목을 받는 21세기 최대의 이슈가 되었다.

특히, 3월 이후 미국에서 코로나 바이러스의 전파속도가 급격히 높아짐에 따라 바이러스에 관한 본격적인 연구가 진행되었고, 전체 염기서열도 해독 및 분석되고 있다.

현재 전세계 주요 유전체 데이터베이스 중 하나인 NCBI(National Center for Biotechnology Information)에서는 8월 6일 기준 14,877개의 코로나 바이러스 전체 염기서열을 제공하고 있다. 공개된 염기서열 데이터를 기반으로 각 지역별 바이러스 변이율을 비교 분석(Mercatelli et al., 2020: Fauver et al., 2020: Gonzalez-Reiche et al., 2020)하는 등 다양한 연구가 진행되고 있다.

하지만, 복잡하고 방대한 자료로 인해 시간에 따라 변하는 코로나 바이러스 변이를 추적하는 작업은 상대적으로 미진하다.

이에 국내의 인공지능(AI) 기반 생물 유전체 빅데이터 분석기업 인포보스(손장혁, 박종선 공동대표)가 코로나 19의 주목해야 할 변이에 대해 최근 발표한 연구자료가 주목을 받고 있다.

코로나 바이러스는 RNA바이러스로 총 12개의 유전자로 구성되어 있다. 이중 ORF1a/b는 가장 긴 유전자로 ORF1a와 frameshift 에 의해 ORF1a에서 ORF1b까지 한번에 번역(translation)이 되고 그 후 단백질 분해효소(protease)에 의해서 절단되어 총 16개의 다양한 기능을 하는 단백질로 분리되는 특징이 있다.

이 외에, 유전체 RNA을 감싸고 다른 세포에 침투하기 휘한 구조를 형성하는 Spike 단백질(S), Neuropeptide 단백질(N), Envelop 단백질(E), 바이러수스 구조를 유지하는 Membrane 단백질(M) 등으로 구성된다.

RNA 바이러스 특성상 시간이 지나면서 다양한 변이를 축적하게 되는데, 대표적으로 알려진 변이는 spike 단백질의 D614G 변이로, 코로나 바이러스가 대량으로 퍼질 수 있는 계기를 마련해주었다(Kober et al., 2020).

그림 1. 코로나 바이러스의 전에 유전체 구성도
그림 1. 코로나 바이러스의 전에 유전체 구성도

인포보스의 연구에 따르면 시간에 따른 코로나 바이러스의 변이율 변화에 주목하여, 미국에서 수집된 검체에서 얻어진 10,062개의 코로나 바이러스 염기서열 정보를 월별로 분석하였고, 흥미로운 결과를 확인하였다.

미국내 월별 코로나 바이러스 감염자수는 3,4월 기점으로 폭발적으로 증가하고, 그 이후 5, 6 월 동안 비슷하게 유지되다가 7월에 다시 폭증하는 것을 확인하였다. (그림 2)

그림 2 미국에서 수집된 코로나 바이러스 전체 염기서열 월별 수 및 미국내 감염자 월별 수
그림 2 미국에서 수집된 코로나 바이러스 전체 염기서열 월별 수 및 미국내 감염자 월별 수

그러나, 염기서열의 경우 3, 4월에 높은 수를 보이고, 점차 줄어듦을 확인하였는데, 분석시에 염기서열 수의 감소부분을 감안해서 해석하는 것이 중요하다고 전했다.

코로나 바이러스의 단일 염기 다형성 변이(SNP) 각 유전자별로 찾아내어 총 8,464개의 SNP를 찾아내고, 이들이 월별로 보여주는 비율을 추적하는 작업을 수행하였으며, 이중, 6월달에 미국에서 대발생한 이후 그 비율이 높아지는 변이를 찾아냈다(그림3).

그림 3. 233개의 단일 다형성 변이(SNP)의 월간 비율 변화 추이 그래프
그림 3. 233개의 단일 다형성 변이(SNP)의 월간 비율 변화 추이 그래프

총 233개(2.75%)의 SNP가 6월 대비 7월에 그 비율이 높아지고(그림 3), 이들 중 기존에 알려진 바이러스의 전파력을 10배 올린 D614G 변이가 있는 Spike 단백질에 17개, 유전체 RNA를 감싸는 Nucleoprotein 단백질에 10개의 변이가 발견되어, 향후 이들이 D614G와 같이 어떤 파급력(Kober et al., 2020)을 보여줄지 모니터링 할 필요가 있다고 전했다(그림 4).

그림 4. Spike 단백질에 17개, Nucleoprotein 단백질의 10개 단일 다형성 변이(SNP)의 월간 비율 변화 추이 그래프
그림 4. Spike 단백질에 17개, Nucleoprotein 단백질의 10개 단일 다형성 변이(SNP)의 월간 비율 변화 추이 그래프

한편, 인포보스의 이번 연구는 자사의 유전체 분석 파이프라인인 GeIS(Genome Information System)를 통해 데이터정보의 관점에서 분석을 수행하였으며, 지속적인 변이의 추적을 위하여 주기적으로 데이터를 수집, 분석하는 작업을 수행할 예정이다. 나아가서 이들 변이가 바이러스에 영향을 줄 수 있는 여부 및 항바이러스 제제 개발에 필요한 데이터를 자체 기술로 개발한 인공지능 기반 유전체분석 플랫폼 Meta 시리즈를 통해 알릴 예정이라고 전했다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지