FASRC 캐넌 클러스터는 대규모의 HPC 시스템으로, 600 개 이상의 실험실 그룹과 4,500 명 이상의 하버드 연구원을 위한 과학, 공학, 사회 과학, 공중 보건과 교육 모델링 및 시뮬레이션을 지원한다.

데이터 처리 과정이 보다 빠르고 효율적으로 운영되는 것은 수천 명의 연구원에게 매우 중요한 사안이다.

FASRC는 최대 규모의 HPC 클러스터 캐넌(사진:FASRC)
하버드 연구 컴퓨팅센터에 있는 HPC 클러스터 캐넌(사진:FASRC)

레노버 데이터센터 그룹(이하 레노버)이 최첨단 고성능 컴퓨팅(HPC) 기술 및 기능을 가능한 많은 이용자에게 제공하고자 하는 ‘엑사스케일에서 에브리스케일까지’라는 미션 아래, 포괄적이면서도 통찰력을 가진 지속 가능한 디지털 사회를 창출하고자 하버드 대학교 최초의 수냉식 슈퍼컴퓨터를 제공한다.

이는 모두를 위해 보다 스마트한 기술이 적용된 세상을 강조하는 것이다.

레노버는 하버드 대학교 문리대학부 연구 컴퓨팅센터(Harvard University Faculty of Arts and Sciences Research Computing, 이하 FASRC)에 서버를 냉각시키면서 에너지를 효율적으로 이용할 수 있는 기술을 제공함으로써 해당 미션을 이행했다.

2007년에 설립된 FASRC는 최첨단 컴퓨팅 서비스를 제공하여 복잡한 연구의 발전을 촉진시키는 것을 설립 이념으로 삼고 있다. 최근 FASRC는 최대 규모의 HPC 클러스터 캐넌(Cannon)을 발표하였는데, 이는 전설적인 미국의 천문학자 애니 점프 캐넌(Annie Jump Cannon)의 이름을 따서 명명되었다.

FASRC 캐넌 클러스터는 대규모의 HPC 시스템으로, 600 개 이상의 실험실 그룹과 4,500 명 이상의 하버드 연구원을 위한 과학, 공학, 사회 과학, 공중 보건과 교육 모델링 및 시뮬레이션을 지원한다. 데이터 처리 과정이 보다 빠르고 효율적으로 운영되는 것은 수천 명의 연구원에게 매우 중요한 사안이다.

예를 들어, 머신러닝을 이용한 지진 여진 예측 개선, 사건지평선망원경(EHT) 데이터를 활용한 블랙홀 모델링, 무형 해양 오염물질 매핑 작업, 신종 독감 추적 및 예측 방법 식별, 행성 형성의 세부 사항을 이해하기 위한 새로운 통계 분석 기술 개발 등이 이에 해당된다.

FASRC는 레노버와 인텔이 지속적으로 협업해온 데이터센터 내 HPC 및 인공지능(AI) 기능 향상에 주안점을 두고, 기존 클러스터인 오디세이(Odyssey)를 새롭게 개선하기로 했다. FASRC는 모든 계산 처리의 25%는 단일 코어에서 실행된다는 점을 인지하고, 프로세서 수를 높이는 동시에 개별 프로세서의 성능을 향상시키고자 했다.

현재의 향상된 성능 수준을 지원하는 데 수냉식 기술이 매우 큰 역할을 하였으며, 향후 용량을 추가할 때도 이 기술은 중요하게 작용된다.

캐넌은 3만 개 이상의 2세대 인텔 제온 스케일러블(Xeon Scalable) 프로세서 코어로 구성되었으며, 물과 공기 사이의 높은 열전도 효율을 이용하는 레노버의 넵튠(Neptune™) 수냉식 기술이 탑재되어 있다.

이로써 캐논의 서버 주요 구성 요소는 더 낮은 온도에서 작동하여 성능과 에너지를 크게 절약할 수 있게 되었다. 새로운 시스템으로 크게 향상된 성능은 ‘엑사스케일에서 에브리스케일까지’, 즉 엑사스케일 수준의 기술을 광범위한 이용자가 사용할 수 있길 바라는 레노버의 비전이 반영됐다.

캐넌의 스토리지 시스템은 여러 위치에 분산되어 있지만 주요 컴퓨트는 매사추세츠주(Massachusetts) 홀리오크(Holyoke)에 위치한 LEED 플래티넘 인증 데이터센터인 매사추세츠 그린 고성능 컴퓨팅센터(Massachusetts Green High Performance Computing Center)에 자리하고 있다.

캐넌 클러스터는 레노버 넵튠 다이렉트 노드 수냉 기능을 갖춘 670 개의 레노버 씽크시스템(ThinkSystem) 서버와 소켓당 24 개의 코어와 노드당 48 개의 코어로 구성된 인텔 제온 플래티넘 8268 프로세서로 구성되어 있다.

현재의 캐넌 노드는 이전 클러스터 노드에 비해 빠른 속도를 보이며, 지구 물리학 모델과 같은 작업을 처리할 시 3-4배 더 빠르게 작업을 실행한다. 캐넌은 작업을 운영을 한 지 첫 4 주간 2,200 만 시간 이상의 CPU 시간을 활용하여 420 만 건 이상의 작업을 완료했다.

FASRC의 연구 컴퓨팅 디렉터 스콧 요클 (Scott Yockel)은 “과학은 되풀이와 반복 작업의 연속이다. 그러나 종종 시간에 쫓겨 업무를 수행해야 하는 대학 연구 분야에서 작업 되풀이는 사치로 여겨진다”며 “캐넌 클러스터의 컴퓨팅 성능이 향상되고 처리 속도가 빨라지면서 연구원들이 데이터 실험에서 무언가를 시도하고 실패한 후 다시 시도할 수 있는 기회가 생겼다. 실패를 하나의 옵션으로 허용하는 것은 연구원들의 경쟁력을 더욱 높여준다”고 전했다.

한편, 코어 개수가 추가되고 시스템 성능이 향상되면 심리학 및 공중 보건 등 대학 내 기타 분야의 연구원들 또한 머신러닝 기능을 활용해 연구 발견의 속도를 높이고 개선하는 효과를 기대해 볼 수 있다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지