KAIST 이상엽 특훈교수 등 공동연구 성과
단백질 서열 EC 번호 예측 위해 3개의 합성곱 신경망 예측기술 사용

인공지능 기반의 DeepEC를 이용한 효소 기능 EC 번호 예측 개요
인공지능 기반의 DeepEC를 이용한 효소 기능 EC 번호 예측 개요(논문 캡처)

효소의 기능을 어떻게 파악해야 할까. 효소들이 촉진하는 생화학반응을 이해하는 것은 대사(metabolism) 시스템의 유전형-표현형 상관관계(genotype-phenotype association)를 파악하는 데에 가장 중요하다.

이는 응용기술에서도 중요하다. 가령 특정 인체 세포의 게놈정보로부터 각 효소들이 어떤 생화학반응을 매개하는 지 정확하고 신속하게 알 수 있다. 또 질병과 관련된 비정상적인 생화학반응들을 쉽게 발견하는 것이 가능해진다.

같은 맥락에서 여러 바이오제품을 생산하는 산업 생명공학에서도 효소가 관여하는 생화학반응을 정확히 알아낼 수 있는 기술은 제품 생산성을 높이는 데에 매우 중요하다.

이 가운데 국내연구진 KAIST(총장 신성철) 생명화학공학과 이상엽 특훈교수와 김현욱 교수의 초세대 협업연구실 공동연구팀은 딥러닝(deep learning) 기술을 이용해 효소의 기능을 신속하고 정확하게 예측할 수 있는 컴퓨터 방법론 '딥이씨(DeepEC)'를 개발, 주목을 받고 있다.

왼쪽부터 이상엽 특훈교수, 김현욱 교수(사진:KAIST)
왼쪽부터 이상엽 특훈교수, 김현욱 교수(사진:KAIST)

효소의 기능을 표기하는 시스템 중 대표적인 것이 EC 번호(enzyme commission number)이다. EC 번호는 ‘EC 3.4.11.4’처럼 효소가 매개하는 생화학반응들의 종류에 따라 총 4개의 숫자로 구성돼 있다.

중요한 것은 특정 효소에 주어진 EC 번호를 통해 해당 효소가 어떠한 종류의 생화학반응을 매개하는지 알 수 있다는 것이다. 따라서 게놈으로부터 얻을 수 있는 효소 단백질 서열의 EC 번호를 빠르고 정확하게 예측할 수 있는 기술은 효소 및 대사 관련 문제를 해결하는 데 중요한 역할을 한다.

지난 여러 해에 걸쳐 EC 번호를 예측해주는 컴퓨터 방법론들이 최소 10개 이상 개발됐다. 하지만 이들 모두 예측 속도와 예측 정확성 및 예측 가능 범위 측면에서 더 발전해야 할 필요성이 있었다. 특히 현대 생명과학 및 생명공학에서 이뤄지는 연구의 속도와 규모를 고려했을 때 이러한 방법론의 성능은 충분하지 않았다.

공동연구팀은 138만8,606개의 단백질 서열과 이들에게 신뢰성 있게 부여된 EC 번호를 담고 있는 바이오 빅데이터에 딥러닝 기술을 적용해 EC 번호를 빠르고 정확하게 예측할 수 있는 DeepEC를 개발한 것이다.

DeepEC는 주어진 단백질 서열의 EC 번호를 예측하기 위해 3개의 합성곱 신경망(Convolutional neural network)을 주요 예측기술로 사용했다. 또 합성곱 신경망으로 EC 번호를 예측하지 못했을 경우 서열정렬(sequence alignment)을 통해서 EC 번호를 예측했다.

연구팀은 더 나아가 단백질 서열의 도메인(domain)과 기질 결합 부위 잔기(binding site residue)에 변이를 인위적으로 주었을 때 DeepEC가 가장 민감하게 해당 변이의 영향을 감지하는 것을 확인했다.

김현욱 교수는 “DeepEC의 성능을 평가하기 위해서 이전에 발표된 5개의 대표적인 EC 번호 예측 방법론과 비교해보니 DeepEC가 가장 빠르고 정확하게 주어진 단백질의 EC 번호를 예측하는 것으로 나타났다”며, “효소 기능 연구에 크게 이바지할 것으로 기대한다”고 말했다.

이상엽 특훈교수는 “이번에 개발한 DeepEC를 통해 지속적으로 재생되는 게놈 및 메타 게놈에 존재하는 방대한 효소 단백질 서열의 기능을 보다 효율적이고 정확하게 알아내는 것이 가능해졌다”고 말했다.

한편, 공동연구팀의 류재용 박사가 1 저자로 참여한 이번 연구결과는 국제학술지 ‘미국 국립과학원 회보(PNAS)’ 지난달 20일 자 온라인판에 게재됐다. (논문명: Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers)

저작권자 © 인공지능신문 무단전재 및 재배포 금지