광범위한 프로세서 제품군이 워크로드에서 더 많은 가치를 창출할 수 있는 하드웨어 부문에서 큰 진전을 보이고 새로운 종류의 유스케이스를 낳고 있다.

정확한 예측 시간, 가용한 컴퓨팅의 양, 방대한 데이터가 수집되는 가운데 딥러닝은 현재 가장 선호되는 AI 알고리즘의 하나이다.

기본 개념은 인공신경망(ANN, Artificial Neural Network)과 유사하다. 사람의 두뇌와 비슷한 방식으로 정보를 처리하는 알고리즘으로, 사물의 면이나 형상 등 여러 요소의 데이터를 합치고 구분하는 과정을 반복해 정보를 학습한다.

특히 수백만 줄의 감독학습(Supervised learning)은 앙상블 트리 기반 알고리즘 자체에 의해 효과적으로 무너질 수 있지만 컴퓨터 비전이나 텍스트 음성 변환(Speech-To-Text, STT)에서의 문제와 그리고 수백 가지 기능과 수백만 행의 복잡한 데이터 기반 문제에서도 다른 비선형 알고리즘으로 매우 효과적으로 해결할 수 있으며, 문제의 복잡성과 무거운 데이터 셋에 관련된 문제에서도 딥러닝은 그 해답이 되고 있다.

컴퓨팅 파워의 증가는 딥러닝의 일차적 원동력으로 떠올라...

계산 능력은 비선형 모델의 채택을 뒷받침하는 일차적인 힘 중 하나이다. 업계가 첨단 모델을 더 많이 채택함에 따라 학계는 현재의 성과에 도전할 수 있는 알고리즘 연구에 힘을 실어주고 있다.

이 분야에서 발전한 또 다른 큰 이유는 방대한 양의 오픈 소스 데이터를 이용할 수 있기 때문이다. 조직들은 데이터 셋을 개방함으로써 학계에 큰 기여를 했다. 그 결과 많은 연구와 발전을 가져왔으며 기관 및 대학 연구소에서 사용할 수 있는 컴퓨팅 파워는 이 분야의 연구개발을 가속화했으며, AI 운용에 관한 한 연구와 시범사업을 넘어 조직도 크게 바뀌고 있다.

GPU 및 CPU가 적합한 문제인지 등급의 이해...

데이터 과학자가 하는 일과 구축 모델을 위한 계산 능력에 영향을 많이 받는다. 그것은 문제의 복잡성에 달려있다. 몇 백만 줄의 문제들에 대해 CPU는 상당한 양의 좋은 일을 한다.

다시 말해, 얕은 층을 가진 신경네트워크의 경우 CPU 자체로 수행할 수 있다. 그러나 문제가 대규모 이미지 훈련과 음성 훈련 전반에 걸쳐 있다면 GPU의 필요성을 느낄 수 있을 것이다. 또 NLP 검색 및 검색 엔진의 경우 수백만 개의 문서를 검색해야 할 경우 GPU는 필수 항목이 된다.

텍스트나 데이터 마이닝의 나머지 사례에서는 CPU 자체로 많은 것을 달성할 수 있다. 그러나 데이터 과학자가 매우 큰 데이터 세트 또는 클릭스트림이나 비즈니스 트랜잭션과 같은 매우 빠른 데이터 스트림으로 작업해야 하는 경우, GPU는 더 많은 이점을 제공한다.

현재 CPU의 영역에서 많은 데이터와 언어학, 통계학, 기계 학습 등을 기반으로 한 자연언어 처리 기술을 활용하여 반정형·비정형 텍스트 데이터를 정형화하고, 특징을 추출하기 위한 기술과 추출된 특징으로부터 의미 있는 정보를 발견할 수 있도록 하는 텍스트 마이닝(Text Mining)을 해결할 수 있으며, GPU는 일반적으로 이미지, 음성 및 텍스트의 검색 문제에 사용된다.

AI를 둘러싼 모든 과대 포장에 대해 먼저 우리는 그만큼 각 분야에서 많은 알고리즘과 프레임워크가 개발되었다는 것을 충분히 이해해야 한다. 지금도 회귀 및 의사 결정 트리와 같은 간단한 알고리즘을 사용하는 경향이 있다. 이 역시소비자 및 비즈니스 문제를 해결하기 위해 존재한다.

데이터 과학자의 툴체인(Toolchain)에 ML 워크플로우를 지원하는 새로운 툴 세트가 필요...

소프트웨어 측면에서 기능 처리와 알고리즘에는 R 또는 파이선(Python)이나 파이선 파크(Pyspark)를 많이 사용한다. 데이터 수집 끝에는 대부분 하이브(Hive) 또는 공개형 데이타베이스 마이에스큐엘(MySQL)이 있지만 모델 구축은 스파크 클러스터에서 수행되거나 자바나 자바스크립트와 같은 언어로 된 알고리즘의 재 변경을 통해 이루어진다.

대부분의 조직은 데이터 과학자의 역할 밖에 배치 상태를 유지한다. 하드웨어에 있어서는 대개 문제의 복잡성에 의존한다. 이제 막 팀을 시작하는 경우, 문제의 요구와 복잡성을 완전히 확인할 수 있을 때까지 클라우드에서 좋은 구성 CPU 시스템으로 시작해야 한다. 그런 다음 조직의 요구에 맞는 것을 구현할 수 있다.

기반 구조 요구에 대해서는 조직의 요구와 해결해야 할 데이터 과학 문제의 유형을 일치시켜야 한다. 예를 들어, 앞에서 강조된 GPU는 특정 유형의 문제에 매우 중요한 반면 나머지 문제는 CPU로 쉽게 처리될 수 있다.

일반적으로 인프라는 데이터 팀을 설치하고 운영하는 핵심 요소를 형성하고 있다. 올바른 기반 구조가 없다면, 사람은 예측의 힘과 이용 가능한 인적 자본을 활용해야 한다.

또한 변화하는 AI 작업 부하 요구사항을 염두에 두고 반도체 공급자는 데이터 과학자가 데이터로부터 더 많은 가치를 얻을 수 있도록 엔드투엔드 하드웨어 및 소프트웨어 솔루션을 구축하고 있다.

예를 들어, 데이터 과학과 알고리즘이 계속해서 변화함에 따라 AI 기술 분야에서 인텔은 더 복잡한 모델에 보조를 맞추고 엣지에서도 더 많은 추론을 제공하는 하드웨어에 투자했다.

이를 염두에 둔 인텔은 2세대 인텔 제논 스케이블(Intel Xeon Scalable) 프로세서를 개선하여 AI와 광범위한 데이터 중심 워크로드 모두에 최고의 유연성을 제공했다. 이 프로세서는 심층학습에 적합한 인텔 딥러닝 부스트(Intel DL Boost)와 함께 AI 가속화를 보장한다.

또한 AI 환경과 함께 소프트웨어가 계속 발전함에 따라 더 많은 최적화 및 성능을 제공하기 위해 오픈 소스 딥러닝 프레임워크 텐서플루(TensorFlow), MXNet 등과 같은 인기 있는 프레임워크와 하드웨어와 소프트웨어에 걸친 최적화는 심층학습을 위한 인텔 제논 스케이블 플랫폼의 기능을 획기적으로 확장시켰다. 이로 인해 걸쳐 241배의 학습 개선과 277X1의 추론 개선을 가져온 것으로 나타났다.

의심할 여지없이, 딥러닝은 업계에 큰 변화를 가져오고 있으며, 특히 광범위한 프로세서 제품군이 시장에 진입하여 워크로드에서 더 많은 가치를 창출할 수 있는 하드웨어 부문에서 큰 진전을 보이고 있다. 이러한 획기적인 발전은 딥러닝 영역에서 다양한 새로운 종류의 유스케이스를 낳고 있다.

이처럼 하드웨어 혁신에서 볼 수 있는 주요 발전 중 일부는 데이터 과학을 자동화하고 머신러닝 결과를 더 잘 설명하는 것이다. 즉, 장기적으로 이러한 하드웨어 혁신은 부문 전반의 새로운 애플리케이션을 가능하게 하고 머신러닝 기술의 발전과 주류화에 도움이 될 것으로 예상된다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지