[AI TECH 칼럼] 자연어 처리 AI의 바이오 분야 적용에 대한 고찰
[AI TECH 칼럼] 자연어 처리 AI의 바이오 분야 적용에 대한 고찰
  • 강신동 지능도시 대표
  • 승인 2020.11.16 07:05
  • 댓글 0
이 기사를 공유합니다

​DNA는 A,T,G,C 알파벳 4개로 대략 30억개 글자로 씌여진 책이라고 볼 수 있다. DNA는 결국 여러 종류의 단백질을 시기 적절하게 만들어내기 위한 정보를 담고 있다.
강신동 지능도시 대표

필자, 강신동은 한국산업기술대학 컴퓨터공학과 겸임교수와 서울시 IoT 추진 기술전문위원, 한국건설기술연구원 연구기획위원 등을 역임했으며, 현재 ㈜지능도시 설립자/대표이자 Smart Beam forum 설립 및 운영자로 활동하고 있다.(편집자 주)

인공지능 구현에 핵심적인 자연어 처리(NLP) 방식은 규모, 언어 및 도메인에 적용되는 알고리즘에 중점을 두고 여러 방식으로 다양한 분야에서 사용되어 사용자 경험을 제공하고 AI 시스템이 문제 해결을 하는데 중추적인 역할을 담당하고 있다.

본고에서는 자연어 처리에서 사용하는 인공지능(AI) 기술을 바이오 산업 분야에 적용하는 경우에 어떤 방향으로 접근하는 지에 대하여 다루어 본다.

​▷ 자연어 처리 (Natural Language Processing)

​자연어는 단어의 나열로 하나의 문장을 이룬다. 하나의 예를 들어보면, '나 너 사랑해' 또는 'I love you' 와 같이 단어의 나열로 뜻을 전달할 수 있다.

​각 자리에 들어갈 수 있는 가능한 단어는 한국어 사전이나 영어 사전에 있는 매우 많은 단어 중에서 들어갈 수 있지만, 문장내의 앞뒤 문맥상으로 보면 그 자리에 들어갈 수 있는 가능한 단어 수는 많이 줄어들 수 있을 것이다.

​각 자리의 단어도 좀 더 분해를 해보면, 영어 알파벳이나 한글의 자음과 모음의 순서와 띄워쓰기 공백으로 이루어진 것을 알 수 있다. 문장이 여러개 모여서 문단이 되고, 여러 문단은 전체 글을 이룬다.

​이처럼 어떤 의미를 다른 사람에게 전달하기 위한 방법으로써 언어를 사용하며 그 언어를 문자로 표기하여 보관하거나 전달할 수 있다.

​▷ 생물 정보와 AI

DNA (이미지출처: sciencemag.org)

생물의 가장 잘 알려진 정보로는 인간의 유전정보를 담고 있는 DNA 이다.

영어 문장이나 한글 문장이 알파벳이나 자음 모음으로 이루어진 것처럼, 유전정보를 담고있는 DNA는 알파벳이 4개로서 A,T,G,C로 이루어져 있다.

​DNA는 A,T,G,C 알파벳 4개로 대략 30억개 글자로 씌여진 책이라고 볼 수 있다. DNA는 결국 여러 종류의 단백질을 시기 적절하게 만들어내기 위한 정보를 담고 있다. DNA에 의해서 만들어지는 단백질 생성은 DNA의 궁극적인 목표이다.

단백질은 20종류의 아미노산이 선형으로 연결된 구조이다.

​단백질은 기다란 일렬의 구조이지만, 긴 가닥이 접히고 꼬이면서 독특한 3차원의 지역 구조인 나선형 구조(알파 헬릭스)와 판형 구조(베타 시트)를 가질 수 있다. 단백질은 길이가 충분히 길어서, 나선형 구조와 판형 구조가 서로 얽혀서 하나의 단백질 내에서도 서로 꼬여서 새로운 3차원 구조를 만든다. 또한 여러 개의 단백질이 뭉쳐서 더 큰 단백질의 구조를 만든다.

단백질의 구조 (이미지 출처: 위키피디아)

20개 종류의 아미노산이 일렬로 연결된 것인 단백질은 20개의 알파벳의 일렬로 나열한 언어의 문장과 같다고 볼 수 있다. 단백질의 일렬로 이어진 구조인 제1차 구조는 일렬로 나열된 알파벳이라고 볼 수 있다. 알파벳의 나열의 지역적인 제2차 나선구조와 판형 구조는 알파벳이 지역적으로 모여서 이루는 단어라고 볼 수 있다.

지역적인 나선구조와 지역적인 판형구조가 하나의 단백질 속에서 얽혀서 만들어지는 제3차 구조는 지역적인 알파벳의 모임인 단어가 서로 영향을 주며 이루어진 자연어의 문장이라고 볼 수 있다. 여러 개의 단백질이 뭉쳐진 제4차 구조는 여러 개의 문장이 뭉쳐져서 새로운 의미를 가지는 언어의 문단이라고 볼 수 있다.

이러한 추상화된 유사성에서 자연언어를 처리하는 최근의 뛰어난 인공지능 기술을 생명정보학 분야에 적용하려는 시도가 늘어나고 있다.

​언어처럼 알파벳을 DNA 분야에서 보면 4개의 알파벳으로 이루어진 자연어로 볼 수 있으며, 알파벳을 단백질 분야에서 보면 20개의 알파벳 (아미노산)으로 이루어진 자연어 문장으로 볼 수 있다.

​화학적인 분자 자체로서 약물을 표현하는 방식인 SMILES (Simplified Molecular Input Line Entry System) 코드의 표기 방식 또한 화학분자를 이루는 원자 기호를 표기한 표현 언어로 볼 수 있다. Smiles 코드는 선형의 분자뿐만 아니라 벤젠고리같은 고리도 일렬의 문자로 표현할 수 있다.

SMILES code (이미지 출처: 위키피디어)

이처럼 DNA나 단백질이나 화학분자를 자연어의 알파벳 표기처럼 표현할 수 있으며, 뛰어난 자연어 처리 성능을 보여주는 인공지능의 기술을 적용하는 작업이 이루어지고 있다.

기존의 RNN (Recurrent Neural Network) 뿐만 아니라, 학습을 위한 라벨링이 필요없는 셀프 어텐션 (self-attention) 기반의 방식이 새로운 방식으로 시도되고 있다. 이러한 연관관계로 인하여, 최근 자연어 처리에서 뛰어난 성능을 보여주는 BERT 모델이나 GPT 모델을 생물정보학 분야에 적용하는 움직임도 있다.

​▷ RNA 간섭 (RNA interference)

RNA (이미지 출처: phys.org)

며칠 전 화이자 (Pfizer) 제약사에서 코로나19 백신 생산이 임박했음이 세게적인 뉴스로 주목을 받았다. 이번 백신은 기존의 단백질 기반의 백신이 아니라, 단백질을 만들어 내도록 명령을 전달하는 메신저 RNA (m-RNA)로 개발되었다.

생명 현상의 거대함과 복잡함으로 인하여, 메신저 RNA (m-RNA) 뿐만 아니라 마이크로 RNA (mi-RNA)나 짧은 간섭 RNA (si-RNA) 등의 RNA 간섭 (RNA interference)은 쉬운 RNA 합성으로 세포내 단백질 합성을 제어할 수 있다는 큰 장점으로 인하여 RNA 서열에 대한 제약과 의학 분야에도 인공지능 기술이 앞으로 많은 역할을 할 것으로 기대한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.