리니어폴드의 공개로 유전자 검사 기관, 전염병 예방 센터 및 기타 과학 연구소와 같은 기관을 지원할 것이며, 코로나 바이러스 발생의 근간이 되는 중요한 정보를 해독하는 것을 목표로

코로나 바이러스 발생의 근간이 되는 중요한 정보를 해독하는 AI 알고리즘 공개(사진:픽사베이)

코로나 바이러스(2019-nCoV) 발생에 대응하여 바이두(Baidu)가 리보헥산(Ribonucleic acid. 이하, RNA) 예측 알고리즘 '리니어폴드(LinearFold)'를 오픈 소스로 공개했다.

이 플랫폼은 바이러스의 RNA 2 차 구조의 예측 시간을 크게 단축시켜 연구원에게 위기 상황에서 바이러스를 더 잘 이해하고 표적 백신을 개발할 수 있는 기회를 제공한다.

특히 바이두의 AI 과학자들은 Synced에 코로나 바이러스에 이미 리니어폴드를 적용하여 예측 시간을 55 분에서 27 초로 단축했다고 한다.

RNA 2차 구조에 대한 지식은 RNA 구조를 모델링하고 관련 기능 메커니즘에 대한 통찰력을 얻으려는 연구자에게 필수적이다. 그러나 계산 언어학에서 차용한 현재의 알고리즘과 동적 프로그래밍에 기초한 알고리즘은 도전에 직면하고 있다.

RNA 길이가 증가하면 런타임이 3차 방식으로 확장된다. 이것은 긴 RNA 서열에 직면할 때 알고리즘을 심각하게 늦추고 게놈 전체 응용에서의 사용을 제한할 수 있다.

바이두 연구진은 리니어폴드를 RNA 폴딩에서 최초의 근사 알고리즘으로 제안해 출력 구조에 기본 쌍 거리와 같은 제약 조건을 적용하지 않고 선형 런타임 및 선형 공간을 달성했다.

또한 리니어폴드 알고리즘과 이전 알고리즘의 중요한 차이점은 시퀀스가 ​​상향식이 아닌 왼쪽에서 오른쪽으로(예: 5 '에서 3'로) 스캔된다는 것이다. 이 접근법은 전산 언어학에서 문맥이 없는 문법에 대한 증분 구문 분석에서 영감을 얻어 모델이 효율적인 빔 프런팅 휴리스틱(beam pruning heuristic)을 사용할 수 있게 한다.

연구원들은 다양한 RNA 서열의 데이터 세트에 대한 설계를 평가했으며, 그 결과는 보다 효율적이며, 평균 정확도가 높아짐을 보여줬다.

예를 들어, HIV 게놈과 같은 대략 10000nt(뉴클레오타이드)의 서열에 대해, 리니어폴드는 단지 8 초의 실행 시간을 소요하는 반면, 기준선은 약 4 분이 걸린다. 32 753nt의 시퀀스에서 리니어폴드는 26 초가 걸리고 널리 사용되는 시스템 CONTRAfold와 RNAfold는 각각 2 시간과 1.7 시간이 걸린다.

한편, 주목할 만한 또 다른 발견은 리니어폴드가 장거리 베이스 페어에서 더 정확하다는 것이며, 이번 리니어폴드의 공개로 유전자 검사 기관, 전염병 예방 센터 및 기타 과학 연구소와 같은 기관을 지원할 것이며, 코로나 바이러스 발생의 근간이 되는 중요한 정보를 해독하는 것을 목표로 하고 있다. 연구팀은 새로운 정보가 제공되면 계속 플랫폼을 업데이트 할 것이라고 밝혔다.

더 자세한 내용은 논문  리니어폴드: 5 '에서 3'까지의 동적 프로그래밍 및 빔 검색으로 선형 시간 근사 RNA 폴딩(LinearFold: linear-time approximate RNA folding by 5'-to-3' dynamic programming and beam search- 다운)' 을 참조하면 된다. 바이두 RNA 예측 알고리즘 '리니어폴드(LinearFold)'는 깃허브에서 다운받아 누구나 사용할 수 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지