데브옵스 구루는 중요한 문제를 식별하면 자동으로 경고를 보내고 관련 이상 징후, 가능한 근본 원인 및 문제가 발생한 시기와 장소에 대한 컨텍스트를 요약하여 제공한다.

로고이미지
로고이미지

아마존웹서비스(AWS)는 2일(현지시간) 온라인으로 열린 `리인벤트 2020 (re:invent 2020)` 행사에서 아마존 데브옵스 구루(DevOps Guru)를 발표했다.

아마존 데브옵스 구루는 머신러닝을 이용하는 완전 관리형 운영 서비스로 개발자들이 자동으로 운영 문제를 감지하고 개선을 위한 구체적인 조치를 추천해 애플리케이션의 운영 성능과 가용성을 쉽게 개선할 수 있다

아마존 데브옵스 구루는 수년 동안 아마존닷컴 및 AWS 운영 우수성을 기반으로 학습된 머신러닝을 사용해 비정상적인 애플리케이션 동작(지연 시간 증가, 오류, 리소스 제약 등)을 식별하고 잠재적인 중단 또는 서비스 중단을 유발할 수 있는 중요한 문제를 식별한다. 또 데브옵스 구루는 중요한 문제를 식별하면 자동으로 경고를 보내고 관련 이상 징후, 가능한 근본 원인 및 문제가 발생한 시기와 장소에 대한 컨텍스트를 요약하여 제공한다.

솔루션 개요
솔루션 개요

또한 아마존 SNS(Simple Notification Service)와 아틀라시안 옵스지니나 페이저듀티와 같은 파트너와의 통합을 통해 개발자에 문제의 세부사항을 알리고 개선을 위한 구체적인 추천을 통해 문제의 잠재적인 영향과 가능한 원인을 신속하게 이해할 수 있도록 돕는다.

개발자는 아마존 데브옵스 구루의 개선 제안을 사용하여 문제 발생 시 해결 시간을 단축하고, 수동 설정이나 머신러닝 전문 지식 없이도 애플리케이션 가용성과 신뢰성을 개선할 수 있다. 데브옵스 구루는 선결제 비용이나 약정은 없으며, 고객들은 아마존 데브옵스 구루가 분석한 데이터에 대해서만 지불한다.

점점 더 많은 조직이 클라우드 기반 애플리케이션 배포 및 마이크로서비스 아키텍처로 이동해 온프레미스 구축의 제약 없이 비즈니스와 운영을 전 세계로 확장함에 따라 고객 니즈를 충족하기 위해 애플리케이션이 점점 더 많이 배포되고 있다. 개발자는 애플리케이션 가용성을 유지하고 운영 문제를 탐지, 디버깅 및 해결하는 데 소요되는 시간과 노력을 줄이기 위해서 더욱 자동화된 관행이 필요하다.

불량 코드나 구성 변경, 불균형한 컨테이너 클러스터 또는 리소스 고갈(예: CPU, 메모리, 디스크 등)로 인해 발생하는 애플리케이션 다운타임 이벤트는 불가피하게 고객 경험을 악화시키고 수익 손실로 이어진다.

기업들은 여러 가지 모니터링 툴을 배치하기 위해 상당한 비용과 개발자 시간을 투자하고, 종종 별도로 관리해야 하며, 로드 밸런서 오류의 급증이나 애플리케이션 요청률의 하락과 같이 흔한 문제에 대한 사용자 지정 경고를 개발하고 유지해야 한다. 애플리케이션 리소스의 비정상적 동작을 식별하고 경고하기 위한 임계값을 설정을 제대로 하기가 어렵고, 수동 설정이 필요하며, 애플리케이션 사용량이 변경될 때 임계값을 지속적으로 업데이트해야 한다.

아마존 데브옵스 구루의 머신러닝 모델은 아마존닷컴의 고가용성 애플리케이션 구축, 확장 및 유지에 대한 20년 이상의 운영 전문 지식을 활용하고 이를 기반으로 아마존 데브옵스 구루는 운영 문제를 자동 감지하고, 관련 리소스 및 이벤트에 대한 컨텍스트를 제공하고 개선 조치를 추천할 수 있으며, 사용하는데 머신러닝 경험은 필요하지 않다.

저작권자 © 인공지능신문 무단전재 및 재배포 금지