이번 초기 버전에는 사이버 보안 및 입력·출력 보호를 위한 도구와 평가가 포함되며, 가까운 시일 내에 더 많은 도구가 제공될 예정..

이미지:본지DB
이미지:본지DB

생성 AI는 이전에 본 적이 없는 새로운 혁신을 가져왔다. 이를 통해 간단한 프롬프트를 통해 인공지능과 대화하고, 사실적인 이미지를 생성하고, 대규모 문서를 정확하게 요약할 수 있으며, 작성할 수 있는 능력을 갖췄다.

반면, 이를 사용하고 적용함에 있어, 공평한 장을 만들고 공개적인 신뢰와 안전에 대한 확신과 책임 있는 AI(Responsible AI)에 대한 연구와 참여가 절실한 시점이다.

이에 메타(mete)는 커뮤니티가 개방형 생성 AI 모델을 책임감 있게 구축하는 데 도움이 되는 도구와 평가를 통합하는 포괄적 프로젝트인 '퍼플 라마(Purple Llama)'를 7일(현지시간) 오픈 소스로 공개했다. 이번 초기 버전에는 사이버 보안 및 입력·출력 보호를 위한 도구와 평가가 포함되며, 가까운 시일 내에 더 많은 도구가 제공될 예정이다.

'퍼플 라마(Purple Llama)' 이미지(사진:메타)
'퍼플 라마(Purple Llama)' 이미지(사진:메타)

메타는 연구 및 상업용으로 모두 사용할 수 있는 퍼플 라마의 이날 공개는 관련 AI 커뮤니티 협업을 활성화하고 생성 AI 개발을 위한 신뢰 및 안전 도구의 개발 및 사용을 표준화하기 위한 중요한 단계라고 밝혔다. 또한 사이버 보안과 안전은 오늘날 생성 AI에서 중요한 영역으로 자사 모델 라마 2(Llama 2)에서 '책임 있는 사용 가이드(Responsible Use Guide-다운)는 이에 대한 모범 사례라고 강조했다 .

또한 메타는 업계 최초로 LLM을 위한 사이버 보안 안전 평가 기준을 공유하고자 한다. 이러한 벤치마크는 업계 지침 및 표준으로 하드웨어 및 소프트웨어 약점과 취약점에 대한 범주 시스템인 'CWE(Common Weakness Enumeration-보기)' 및 'MITRE ATT&CK(보기)'을 기반으로 하며, 보안 분야 전문가와의 협업을 통해 구축되었다.

메타는 이번 첫 번째 릴리스를 통해 책임감 있는 AI 개발에 대한 지난해 7월, 조 바이든(Joe Biden) 대통령과 백악관의 약속(참조)에서 '안전', '보안', '신뢰'라는 인공지능의 미래에 기본이 되어야 하는 이 세 가지 원칙과 책임감 있는 AI(Responsible AI) 개발과 명시된 몇 가지 위험을 해결하는 데 도움이 되는 도구를 제공하는 것을 목표로 하고 있다

메타의 이러한 도구는 안전하지 않은 AI 생성 코드를 제안하는 LLM의 빈도를 줄이고 사이버 공격자에 대한 유용성을 감소시킬 것이라며, 초기 결과는 안전하지 않은 코드를 추천하고 악의적인 요청을 준수하는 데 있어 LLM에 의미 있는 사이버 보안 위험이 있음을 보여준다(자세한 내용은 평가 논문 참조-다운).

이 논문에서는 코딩 보조자로 사용되는 대형언어모델의 사이버 보안을 강화하기 위해 개발된 포괄적인 벤치마크인 CyberSecEval(사이버보안평가)을 제시한다. 현재까지 가장 광범위한 통합 사이버 보안 안전 벤치마크라고 생각되는 CyberSecEval은 두 가지 중요한 보안 영역, 즉 안전하지 않은 코드를 생성하는 경향과 사이버 공격 지원 요청 시 규정 준수 수준에서 LLM에 대한 철저한 평가를 제공하고 라마2, 코드라마(codeLlama) 및 오픈AI GPT 제품군의 7개 모델을 포함하는 사례 연구를 통해 주요 사이버 보안 위험 요소를 효과적으로 찾아냈다

위에서 Llama 2의 '책임 있는 사용 가이드'의 설명대로 LLM에 대한 모든 입력 및 출력을 애플리케이션에 적합한 콘텐츠 지침에 따라 확인하고 필터링하는 것이 좋다. 이를 지원하고 커뮤니티에 힘을 실어주기 위해 메타는 일반적인 공개 벤치마크에서 경쟁력 있는 성능을 발휘하고 잠재적으로 위험한 출력 생성을 방지하는 데 도움이 되는 사전 훈련된 모델을 개발자에게 제공하는 공개적으로 사용 가능한 모델인 '라마 가드(Llama Guard)'를 출시했다.

'라마 가드'는 배포 용이성을 위해 최적화된 입력·출력 필터링을 위한 안전 분류기로 개방적이고 투명한 과학에 대한 지속적인 노력의 일환으로 논문 '라마가드: 인간-AI ​​대화를 위한 LLM 기반 입출력 보호 장치(Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations-다운)'에서 모델 성능에 대한 확장된 논의와 방법론을 공개하고 있다.

이 모델은 다양한 개발자 사용 사례와 관련될 수 있는 잠재적으로 위험하거나 위반하는 콘텐츠의 일반적인 유형을 감지할 수 있도록 공개적으로 사용 가능한 데이터 세트의 혼합에 대해 학습되었다. 궁극적으로 개발자가 이 모델을 사용자 정의하여 관련사용 사례를 지원하고 모범 사례를 더 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 한다.

한편, 이날 메타가 공개한 개방형 생성 AI 모델을 책임감 있게 구축하는 데 도움이 되는 도구와 평가를 통합하는 포괄적 플랫폼인 '퍼플 라마(Purple Llama)'의 더 자세한 내용은 논문 '퍼플 라마 사이버보안평가: 대규모 언어 모델의 사이버 보안 위험을 평가하기 위한 벤치마크(Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models-다운)'을 참고하면 된다. 현재, 코드는 깃허브를 통해(다운) 다운로드 할 수 있다.

 

저작권자 © 인공지능신문 무단전재 및 재배포 금지