UNIST 김동혁 교수팀, 딥러닝 기반 ChIP-exo 피크 선별 소프트웨어 개발

이번 연구를 진행한 연구진의 모습. 왼쪽부터 이상목 박사후연구원, 방인아 연구원, 박서정 연구원(사진:UNIST)
이번 연구를 진행한 연구진의 모습. 왼쪽부터 이상목 박사후연구원, 방인아 연구원, 박서정 연구원(사진:UNIST)

염색질 면역 침전(Chromatin immunoprecipitation, ChIP)은 특정 단백질의 결합 위치를 조사하는데 널리 사용된다. 특히, 엑소뉴클리아제(exonuclease)를 활용한 최신 실험 기술인 ChIP-exo을 통해 고해상도로 결합 부위를 식별할 수 있다.

하지만 목표로 하는 단백질이 실제로 DNA에 결합하는 부위인 피크에 대한 판별 작업은 연구자의 노동집약적 추가 확인 단계가 필수적이다. 이는 대용량의 데이터를 신속·정확하게 처리하지 못하는 한계가 있었다.

UNIST(총장 이용훈) 에너지화학공학과 김동혁 교수팀은 이런 문제점을 해결하기 위해 딥러닝 기반의 ChIP-exo 피크 선별 소프트웨어인 DEep-learning Optimized ChIP-exo peak calling SUite(DEOCSU)를 개발했다.

DEOCSU의 개요. DEOCSU의 전체적인 워크플로우는 피크 후보의 감지, 각 신호에서 이미지 데이터로의 변환, 학습된 컨볼루션 신경망을 사용한 실제 피크의 선별, 피크 위치 최적화 및 결합 크기 추정의 주요 단계로 이루어지며 이후 결과데이터는 MetaScope를 사용하여 유전체 전체에서의 분포를 시각화할 수 있음.
DEOCSU의 개요. DEOCSU의 전체적인 워크플로우는 피크 후보의 감지, 각 신호에서 이미지 데이터로의 변환, 학습된 컨볼루션 신경망을 사용한 실제 피크의 선별, 피크 위치 최적화 및 결합 크기 추정의 주요 단계로 이루어지며 이후 결과데이터는 MetaScope를 사용하여 유전체 전체에서의 분포를 시각화할 수 있음.

DEOCSU는 참조 서열에 정렬된 ChIP-exo 데이터를 통해 피크 후보를 먼저 감지한다. 감지된 각각의 신호를 이미지 데이터로 변환한 후 학습된 데이터를 통해 이미지를 작은 단위로 쪼개어 각 부분을 분석하는 기법인 컨볼루션 신경망을 사용하여 실제 피크를 선별한다.

선별된 각 피크는 위치 최적화와 결합 크기 등을 추정할 수 있다. 해당 결과 데이터는 자체 개발 시각화 소프트웨어인 MetaScope를 통해 확인한다.

대장균 K-12 MG1655 시그마 인자의 ChIP-exo 데이터를 이용한 DEOCSU의 성능 검증. (A) DEOCSU에서 사전 훈련된 모델의 테스트 정확도와 각 시그마 인자 데이터의 테스트 정확도. (B) 시그마 인자의 결합 부위에 대한 선별에서 DEOCSU의 성능을 나타내는 혼동 행렬. DEOCSU의 모델이 높은 정확도(96.2%), 정밀도(95.1%) 및 재현율(96.2%)을 가지고 있음을 알 수 있으며, 10회 반복으로 무작위 재표본 추출을 통한 성능 분석을 진행하였을 때 정확도의 평균이 92.3% 이상으로 나타난 것을 확인할 수 있음.
대장균 K-12 MG1655 시그마 인자의 ChIP-exo 데이터를 이용한 DEOCSU의 성능 검증. (A) DEOCSU에서 사전 훈련된 모델의 테스트 정확도와 각 시그마 인자 데이터의 테스트 정확도. (B) 시그마 인자의 결합 부위에 대한 선별에서 DEOCSU의 성능을 나타내는 혼동 행렬. DEOCSU의 모델이 높은 정확도(96.2%), 정밀도(95.1%) 및 재현율(96.2%)을 가지고 있음을 알 수 있으며, 10회 반복으로 무작위 재표본 추출을 통한 성능 분석을 진행하였을 때 정확도의 평균이 92.3% 이상으로 나타난 것을 확인할 수 있음.

대장균 K-12 MG1655 균주의 ChIP-exo 데이터를 기반으로 학습된 DEOCSU의 모델은 학습에 사용된 데이터 뿐만 아니라 미지의 ChIP-exo 데이터에 대해서도 정확하게 피크를 선별해줬다.

공개 데이터베이스(EcoCyc와 proChIPdb)의 정보와 선행된 연구 사례를 이용하여 기존에 공개된 소프트웨어(ChExMix, MACE, MACE-elite, PeakXus)와 비교했을 때도 우수한 성능을 보였다. 특히, 원핵생물 유래의 ChIP-exo 데이터 뿐 아니라 진핵생물과 고세균에서의 분석에서도 그 성능이 유지가 되어 그 범용성 역시 확인됐다.

김동혁 교수
김동혁 교수

김동혁 에너지화학공학과 교수는 “단백질과 DNA의 상호 작용을 고해상도로 식별할 수 있는 유용한 이점에도 불구하고 분석의 어려움으로 인해 ChIP-exo 실험 기술의 사용이 제한되었었다”며 “이번 DEOCSU의 개발로 분석에 대한 연구자의 부담감을 극복시킴으로써 관련 연구의 진행 속도를 가속화할 수 있을 것이다”고 전했다.

한편, 이번 연구 성과는 생물정보학 연구 권위지인 브리핑스 인 바이오인포메틱스 (Briefings in Bioinformatics)에 '딥러닝에 최적화된 DEOCSU 제품군 정확한 ChIP-exo 피크 호출 위한 반복 가능한 파이프라인 제공(Deep-learning optimized DEOCSU suite provides an iterable pipeline for accurate ChIP-exo peak calling-보기)'란 제목으로 지난달 25일 게재됐다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지