DeepHisCoM은 패스웨이에 대한 생물학적 인자의 복합적이고 비선형적인 기여를 딥러닝을 활용하여 성공적으로 반영하였으며 동시에 계층적인 생물학적 구조를 반영한 창의적인 통계학적 모델...

서울대학교 통계학과 박태성 교수
서울대학교 통계학과 박태성 교수

패스웨이(Pathway)는 단백질, 유전자, 세포 등 생체 요소간의 상호작용과 역학관계를 세밀하게 설명할 수 있는 생물학적 심층지식을 말한다. 패스웨이 분석은 유전자와 단백질과 같은 생물학적 인자를 기반으로 질병과 관련된 패스웨이를 식별하는 데 사용되어 왔다.

이러한 질병 연관 패스웨이의 발견은 생물학적 인자들이 어떠한 생물학적 현상을 통해 질병에 영향을 미치는지에 대한 해석에 도움을 주어 향후 질병의 기작 이해에 도움을 줄 수 있다는 장점이 있다.

그러나 기존의 패스웨이 분석 방법론은 대부분 생물학적 인자와 패스웨이 사이의 복잡한 비선형적 관계를 고려하지 못한다는 한계점이 있어 생물학적 복잡성을 반영하지 못하고 있다.

이에 국내연구진 서울대학교(총장 오세정) 통계학과 박태성 교수 연구팀이 이러한 한계점을 개선하기 위해 인공지능(AI) 딥러닝을 활용한 모델 '딥히스컴(이하, DeepHisCoM)'을 개발한 것이다. 

DeepHisCoM은 패스웨이에 대한 생물학적 인자의 복합적이고 비선형적인 기여를 딥러닝을 활용하여 성공적으로 반영하였으며 동시에 계층적인 생물학적 구조를 반영한 창의적인 통계학적 모델이다.

COVID-19 중증도 연관 패스웨이 및 유전자의 시각화
COVID-19 중증도 연관 패스웨이 및 유전자의 시각화

DeepHisCoM을 네 가지 종류의 오믹스 자료와 두 가지 종류의 질병에 대해 적용하여 질병 연관 패스웨이를 찾았으며, 특히 영국의 대규모 UK Biobank의 유전체 SNP 자료를 이용한 COVID-19 환자들의 중증도에 대한 패스웨이 분석을 통해 기존에 COVID-19 연관 패스웨이로 알려진 다수의 패스웨이 및 질병의 이해에 도움을 줄 수 있는 후보 패스웨이를 성공적으로 찾았다.

또한 시뮬레이션 분석을 통하여 기존의 비선형적 관계를 고려하지 않는 모델과 비교하였을 때 DeepHisCoM이 더 높은 성능을 보이는 것을 확인하였다.

연구팀은 간암 환자의 대사체 자료를 분석하여 lysine degradation, valine, leucine, and isoleucine biosynthesis, phenylalanine, tyrosine, and tryptophan 등 간암 연관 패스웨이를 찾았고, 전사체 및 메타지놈 자료에서 결과의 재현성을 확인하였다.

또한 추가적인 시뮬레이션 분석을 통하여 기존의 비선형적 관계를 고려하지 않는 모델과 비교하였을 때 DeepHisCoM이 더 높은 성능을 보이는 것을 확인하였다.

DeepHisCoM 모형의 구조. 직사각형은 바이오마커 원은 hidden layer, 그리고 타원은 패스웨이를 의미
DeepHisCoM 모형의 구조. 직사각형은 바이오마커 원은 hidden layer, 그리고 타원은 패스웨이를 의미

이를 통해 본 연구에서는 DeepHisCoM의 다양한 오믹스 자료 및 질병에 대한 적용 가능성을 확인하였으며, 향후 질병 연관 패스웨이 발굴을 통해 질병에 대한 생물학적 기전을 해석하는데 기여할 수 있을 것으로 기대한다.

한편, 서울대 김보람 연구원, 박찬우 연구원이 함께 진행한 이번 연구는 옥스퍼드대학교 생물정보학 분야의 세계적인 저널인 생물정보학 브리핑(Briefings in Bioinformatics)에 'DeepHisCoM: 계층구조 구성요소 모델을 이용한 딥러닝 경로 분석(DeepHisCoM: Deep learning pathway analysis using hierarchical structural component models-보기)'란 제목으로 지난달 23일 게재되었으며, 관련 코드는 깃허브(다운)를 통해 공개됐다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지