신경망(CNN)으로 단백질 자동 설계 위한 알고리즘 개발
신경망(CNN)으로 단백질 자동 설계 위한 알고리즘 개발
  • 최창현 기자
  • 승인 2019.03.24 09:09
  • 댓글 0
이 기사를 공유합니다

MIT CSAIL의 알고리즘은 기존의 방법보다 최대 200 배 빠른 머신러닝 모델을 설계한다.
MIT 연구진은 특정 하드웨어에서 빠르게 실행되는 신경 네트워크를 자동으로 설계하기 위한 '푸시 버튼'솔루션을 제공할 수있는 효율적인 알고리즘을 개발했다.(사진:MIT)
MIT 연구진은 특정 하드웨어에서 빠르게 실행되는 신경 네트워크를 자동으로 설계하기 위한 '푸시 버튼'솔루션을 제공할 수있는 효율적인 알고리즘을 개발했다.(사진:MIT)

단백질은 생물체의 원형질을 구성하는 고분자 유기 물질로 물을 제외하고 우리 몸을 구성하는 가장 많은 탄소 화합물이다. 또 펩타이드 결합으로 연결된 선형 사슬이며, 사슬 내의 서열 및 물리적 상호 작용에 따라 매우 복잡한 3 차원 구조이다. 그 구조는 차례로 단백질의 생물학적 기능을 결정한다. 따라서 단백질의 3-D 구조를 아는 것은 단백질이 특정 약물에 어떻게 반응하는지 예측하는 데 매우 중요하다.

그러나 수십 년에 걸친 연구와 다중 이미징 기술의 개발에도 불구하고 가능한 수십만 개의 단백질 구조가 있지만 우리는 단백질 구조의 극히 일부만을 알고 있다. 오늘날 새로운 단백질 구조의 발견을 가능하게 할 수 있는 아미노산 염기서열을 바탕으로 단백질 구조를 예측하기 위해 머신러닝 모델을 사용하기 시작했다. 하지만 다양한 아미노산 염기서열이 매우 유사한 구조를 형성할 수 있기 때문에 이것은 어려운 일이다. 그 모델들을 훈련시키기 위한 구조들은 많지 않기 때문이다.

이에 MIT 컴퓨터 과학 및 인공지능연구소(CSAIL) 연구원은 아미노산 체인의 세그먼트가 어떻게 단백질의 기능을 결정하는지 연구자가 약물 개발 또는 생물학적 연구를 위해 새로운 단백질을 설계하고 테스트하는데 도움을 줄 수 있는 알고리즘을 개발했다고 지난 21일(현지시각) 발표했다. 이 연구 및 개발 내용은 오는 5월 캐나다 몬트리올에서 개최되는 로봇 및 자동화에 관한 국제회의에서 발표될 예정이다.

특정 하드웨어에서 빠르게 실행되는 푸시버튼(push-button) 솔루션으로 AI 전문가와 비 전문가 모두 신경 네트워크 아키텍처를 효율적으로 설계할 수 있다. 또한 이 솔루션은 불필요한 신경망 설계 구성 요소를 삭제하고 컴퓨팅 시간을 줄이며, 하드웨어 메모리의 일부만 사용하여 NAS 알고리즘을 실행하는 방법으로 추가 혁신을 통해 각 출력된 CNN(Convolutional Neural Networks)은 전통적인 접근 방식으로 설계된 것보다 CPU, GPU 및 모바일 장치와 같은 특정 하드웨어 플랫폼에서 보다 효율적으로 실행된다고 한다.

실험에서 CNN은 기존의 표준 모델보다 모바일에서 1.8 배 더 빠르며 정확도는 비슷했다. 또 CNN의 아키텍처는 필터(filter)라고 불리는 조정 가능한 매개 변수가 있는 계산 계층과 해당 필터 간의 가능한 연결로 구성되며 3x3, 5x5 또는 7x7과 같은 사각형 그리드에서 프로세스 이미지 픽셀을 필터링한다. 필터는 본질적으로 이미지를 가로 질러 이동하고 덮인 픽셀 그리드의 모든 색상을 단일 픽셀로 결합시키며, 서로 다른 레이어는 서로 다른 크기의 필터를 가질 수 있으며 서로 다른 방식으로 데이터를 공유하기 위해 연결할 수 있다.

출력은 모든 필터의 결합된 정보에서 압축된 이미지로 컴퓨터로 보다 쉽게 분석할 수 있으며, 검색 공간(search space)이라고 불리는 가능한 아키텍처의 수가 너무 크기 때문에 NAS를 적용하여 거대한 이미지 데이터 세트에 신경 네트워크를 만드는 것은 계산적으로 힘들다. 엔지니어는 일반적으로 NAS를 작은 프록시 데이터 세트로 실행하고 CNN 아키텍처를 대상 작업으로 보내진다. 그러나 이 일반화 방법은 모델의 정확성을 감소시키며, 또한 동일한 출력 아키텍처가 모든 하드웨어 플랫폼에도 적용되어 효율성 문제가 발생한다.

연구자들은 수천 개의 클래스에 수백만 개의 이미지가 들어있는 ImageNet 데이터 세트에서 직접 이미지 분류 작업에 대한 새로운 NAS 알고리즘을 훈련하고 테스트했다. 그들은 먼저 가능한 모든 후보 CNN 경로(paths)를 포함하는 검색 공간을 만들었다. 즉, 레이어와 필터가 데이터를 처리하기 위해 연결되는 방법을 의미한다. 이것은 NAS 알고리즘에 최적의 아키텍처를 찾기 위해 유연하게 제공된다. 일반적으로 GPU 메모리 한계를 초과하는 모든 가능한 경로를 메모리에 저장해야 함을 의미하는 것이다.

이를 해결하기 위해 연구자들은 한 번에 하나의 샘플링 된 경로 만 저장하고 메모리 소비의 크기를 절약하는 ‘경로 레벨 이진화’라는 기술을 활용한다. 이 이진화와 ‘경로 레벨 프로닝(path-level pruning)’을 결합한다. 이 기법은 전통적으로 신경망에서 어떤 뉴런이 출력에 영향을 미치지 않고 삭제될 수 있는지를 학습한다. 그러나 뉴런을 버리는 대신 연구자의 NAS 알고리즘은 전체 경로를 잘라내어 신경망의 아키텍처를 완전히 바꾸며, 훈련에서 모든 경로에는 처음에는 선택 확률이 동일하다.

또한 알고리즘은 한 번에 하나씩 저장하는 경로를 추적하여 출력의 정확성과 손실(부정확한 예측에 할당된 수치적 벌칙)을 기록한다. 그런 다음 경로의 확률을 조정하여 정확도와 효율성을 최적화한다. 결국 알고리즘은 모든 낮은 확률 경로를 잘라 내고 최종 CNN 아키텍처인 가장 높은 확률의 경로만 유지하는 것이다.

한편 이 알고리즘은 신경망 설계 자동화를 고속으로 구현하며, 기존의 방법보다 최대 200 배 빠른 머신러닝 모델을 설계한다. 또 불필요한 신경망 설계 구성 요소를 삭제하고 컴퓨팅 시간을 줄이며, 하드웨어 메모리의 일부만 사용하여 NAS(Neural Architecture Search) 알고리즘을 실행하는 방법으로 연구자들에게 특정 아미노산 분절(分節)을 더 잘 활용하고 수정할 수 있는 기회를 줌으로써 단백질 연구자들의 연구 개선에 혁신적으로 사용될 수 있을 것으로 예상된다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.