[칼럼] 임영익 인텔리콘 대표변호사, GPT-4는 변호사를 대체 하는가?

낮에는 변호사로, 밤에는 연구자 또는 개발자로 변신하면서 국내 최초로 법률 AI 시스템을 개발한 AI 전문기업인 인텔리콘연구소 대표이사이자 인텔리콘 법률사무소 임영익 대표변호사는 국내 최초로 지능형 법률 검색 내비게이션 시스템 ‘유렉스(U-LEX)’와 계약서 자동분석 AI 시스템인 ‘알파로(Alpha Law)’를 개발하기도 했다.

서울대학교 생명과학과(1998) 출신인 필자는 주 전공 외에도 수학, 물리학, 전자공학 등 다양한 분야를 공부하였다. 미국으로 가서 뇌과학과 인공지능을 공부하다가 귀국하여 2010년부터 본격적인 인공지능 개발사업에 착수하였다. 초기에는 에듀테크를 염두해 두었으나 최종적으로 리걸테크 분야의 인공지능 개발 쪽으로 방향을 잡았고 2016년, 2017년 세계 법률인공지능 대회에 연속 우승하면서 세계 최고 수준의 법률인공지능 원천기술 개발에 성공하였다.

대한변호사협회 부협회장(48대), 대통령직속 4차산업형멱위원회 전문위원, 리걸테크협의회 공동회장, 한국인공지능법률학회 부회장 등을 역임하였고, 현재 세계 법률인공지능학회 정회원, 건국대학교 언론홍보대학원 겸임교수 등으로 활동하고 있다. 요즘은 법률 GPT(Law-GPT)와 메타휴먼 개발에 집중하고 있고, 주요 저서로 ‘메타생각’, ‘프레디쿠스’, ‘인공지능과 법(공저)’ 등이 있다.<편집자 주>

챗GPT는 실패하고 GPT- 4는 변호사 시험 합격

2016년 알파고 충격 이후 인공지능에 대한 관심이 살짝 시들해진 2022년 겨울. GPT-3.5을 기반으로 갑자기 등장한 ‘챗GPT(ChatGPT)’로 전 세계가 광풍에 빠졌다. 챗GPT는 말 그대로 사용자가 질문을 하면 대답을 문장으로 생성해 주는 챗봇이다. 챗GPT는 기존의 인공지능이나 챗봇과는 차원이 다른 성능을 보인다. 의사 시험과 변호사 시험을 통과할 정도로 똑똑하다.

실제 2022년 12월 챗GPT가 변호사 시험을 쳤다. 시카고 대학 켄트 로스쿨의 다니엘 카츠(Daniel Katz)교수와 미시간 주립대 로스쿨의 마이클 봄마리토(Michael Bommarito)교수 팀은 챗GPT를 이용해 미국 변호사 시험에 응시했다. 연구팀의 챗GPT는 미국 변호사 시험 출제기관인 NCBE(National Conference of Bar Examiner)가 낸 객관식(MBE, Multistate Bar Exam) 시험에서 하위 10%의 성적으로 아쉽게 불합격했다.

위 연구팀은 미국 스탠포드 대학 법률정보센터(Stanford CodeX)의 파블로 아레도노 (Pablo Arredondo) 등과 협력하여 챗 GPT보다 더 진화한 GPT-4로 다시 시험을 치게 했다. 결과는 놀랍게도 상위 10%의 우수한 성적으로 합격선에 들었다(아래 그림에서 녹색 부분이 GPT –4의 성적, 붉은색 부분은 기존 모델, 청색은 실제 학생들).

출처: Daniel Katz 팀의 논문 ‘ GPT- 4 Passes the Bar Exam, 2023.3.15. 참고

연구팀은 비록 객관식 시험이었지만 인공지능이 인간 법률가의 실력과 비슷해지는 것은 시간문제라고 하면서 GPT-4의 놀라운 법률 추론 능력을 강조하였다.

챗GPT의 원리와 눈을 가진 멀티모달 GPT

챗GPT의 개발사인 오픈AI는 2018년 GPT-1을 처음 출시한 이후 계속 성능을 고도화 하여 2020년 GPT-3 버전을 발표하였다. 그러나 예상외로 시장의 반응은 시큰둥하였다. GPT성능은 매개변수(파라미터) 개수에 달려 있는데 변수가 많을수록 성능도 좋아진다. GPT-3는 GPT-1보다 1500배 많은 1750억개라는 엄청난 매개변수를 가지고 있다.

이후 오픈AI는 GPT-3의 성능을 획기적으로 높이기 위하여 인스트럭트GPT(InstructGPT)를 새롭게 개발하였다. 이 모델은 인간 평가단이 다시 개입하여 생성문에 대한 피드백 루프를 만드는 것이 핵심이다. 인간 평가단은 GPT-3가 만든 결과를 보고 질문의 의도와 부합할수록 높은 점수를 주고, 내용이 이상하거나 윤리적인 문제가 있을 때는 점수를 대폭 깎는다.

이러한 인간 피드백의 결과를 인스트럭트GPT가 다시 배우는 방식으로 성능을 개선 시켰다. 즉, 인간 평가단은 질문에 대한 여러 가지 결과에 대해 점수, 순위 등을 라벨링하고 인공지능은 그 결과를 바탕으로 사람이 실제 선호하는 내용의 답을 생성하는 법을 학습하는 것이다.

오픈AI는 그들의 논문에서 이 기술을 RLHF(Reinforcement Learning from Human Feedback, 인간피드백 강화학습)이라고 명명하였다. 2022년 11월에 등장한 챗GPT는 인스트럭트GPT를 기반으로 만들어 진 것으로 누구나 대화를 통해 즐길 수 있도록 챗봇의 모습을 하고 있다.

아기가 언어를 학습하는 것을 살펴보면, 태어나서 부모의 말을 듣고 웅얼거리면서 일차적으로 간단한 언어와 지식을 배운다. 약간의 말문이 터지면서 아기들은 의미 없이 중얼거리거나 제법 긴 문장으로 표현하기 시작한다. 이때 부모로부터 피드백을 받으면서 보상이나 벌칙을 받게 된다. 자신의 의도를 잘 표현하게 되면 칭찬을 받으며, 틀리는 경우 교정을 받으면서 의미 인식과 표현법을 시행착오로 배워나간다.

이런 과정을 흉내 내는 것이 강화학습이다. 그 유명한 알파고도 강화학습을 이용하였다. 챗GPT는 인간 피드백 기반의 강화학습을 활용하기 때문에 기존 모델과는 비교가 안 될 정도의 성능을 보인다.

다시 돌아가 변호사 시험을 통과한 GPT-4을 살펴보자. 이 모델의 가장 큰 특징은 이미지를 인식하고 해석할 수 있다는 것이다. 기존 GPT 모델은 언어나 기호처리에 국한되었지만 GPT-4는 언어뿐만 아니라 이미지 분석이 가능하다. GPT에 눈이 생긴 셈이다. 눈을 가진 모델은 이미지 해석의 새로운 지평을 열고 있으며, 시각장애인 등을 위한 다양한 응용 솔루션 개발을 가능하게 한다.

GPT-4는 이미지 인식 등의 멀티모달(Multi Modal) 정보처리 외에도 언어추론 능력 자체도 향상되었다. GPT-4는 표를 만들어서 정리할 수 있고, 32,768개의 토큰을 받을 수 있으며 50페이지가 넘는 텍스트를 읽고 이해할 수 있다. 빠르게 진화하고 있는 GPT는 우리의 생활 및 업무 패턴이 급속도로 변화시키고 있다

GPT-4와 법률가의 미래

인공지능 인기가 높아질수록 우울해하는 쪽은 의사, 변호사 등의 전문가 집단일 것이다. 일파고 이후 미래학자들은 많은 전문직 들이 인공지능에 의해 대체 될 것이라고 했다. 하지만 피부로 느낄 정도의 변화는 없었고 앞으로도 그럴 일은 없을 것 같다. 그런데 챗GPT가 등장하면서 살짝 판도가 달라졌다. 요즘 들어 전문직에 종사하는 분들도 이제 앞날을 걱정하기 시작했다.

과연 GPT-4는 변호사를 대체할 수 있을 것인가? GPT-4에게 물어보니 단칼에 “대체 할 수 없다. 더 진화된 어떤 GPT도 마찬가지다”라고 한다. 그렇다면 언제쯤 그것이 가능하냐고 물었더니 “불확실하다. 단순한 법률 보조자로 활동할 것이다”라고 한다. 매우 겸손한 답이라 근심이 조금은 사라진다.

사실 챗GPT에게 다양한 법적 질문을 던지고 그 대답을 잘 살펴보면 약간은 애매하고 근거 없는 답을 하는 경우를 종종 발견할 수 있다. 한 번씩 뜬금없는 답변을 하는 인공지능에게 우리는 큰 신뢰를 줄 수는 없다. 전문가 영역에서는 신뢰성이 생명이다. GPT 모델은 기본적으로 앞의 문장을 보고 다음 단어를 생성하는 확률과 통계를 기반으로 한다. 결국 숨어 있는 오류를 완전히 제거하기가 어렵다는 것이다.

더 큰 문제는 책임성에 대한 것이다. 오류가 생길 경우 누가 책임질 것인가? 이런 여러 가지 문제로 GPT모델이 일반인에게 곧바로 진중한 상담을 하기는 쉽지 않다. 법률 영역에 국한해서 볼 때 챗GPT는 장난감에 가깝다. 따라서 챗GPT기반의 법률 서비스는 아주 간단한 1차 상담을 하거나 사용자를 유도하는 마케팅용으로 사용될 가능성이 더 높다.

그렇다면 GPT-4는 어떨가? 변호사 시험에 통과할 정도로 GPT–4의 성능이 우수하다는 것을 앞에서 보았다. 이 모델은 긴 문장을 이해하고 추론하는 능력이 상상을 초월한다. 장난감에서 법률 보조자 정도로 격상된 것 같다. 사실 GPT-4 외에도 구글, 메타(구 페이스북) 같은 대기업에서 다양한 대화형 생성 인공지능(Generative AI)이자 거대 언어모델(LLM) API를 공개하고 있다. 이런 모델을 이용하여 방대한 법률 지식을 다시 학습(파인 튜팅)하면 놀라운 법률 언어모델이 탄생 된다. 그러나 역시 신뢰성과 책임성 문제는 피할 수 없으며 이것을 해결하기 위해서는 많은 시간과 노력이 필요하다.

어쨌든 법률 언어모델을 잘 활용한다면 새로운 형식의 검색기, 법률상담 챗봇, 법률문서 분석기 등 다양한 형태의 리걸테크(Legal Tech) 서비스가 가능하다. 예를 들면 소송자료, 판결문, 계약서, 논문 등을 입력하고 명령을 내리면 관련 자료를 빨리 찾아주고, 내용을 요약하고, 쟁점을 도출하는 등의 서비스를 만들 수 있다.

준비서면, 판결문, 계약서도 자동으로 만들 수 있으며 분석과 해설도 가능하다. 심지어 숫자나 통계 자료를 정리하여 도표로 만들어 주며, 근거 문서와 관련 사이트도 모두 알려 줄 수 있다. 특히, 눈이 달린 GPT는 문서의 이미지를 인식하고 그 의미를 해석하여 다양한 법적 주석을 달 수 있다. 이 정도 되면 가히 신뢰성 있는 법률 보조자 또는 조력자라 해도 될 것 같다.

결론적으로 기술적 혹은 법적 문제로 GPT-4 같은 최첨단 언어지능이라도 변호사를 대체하는 것은 어렵다. 그러나 가까운 미래에 법률 영역에서도 파괴적 혁신이 가시화 될 것이다. 판사, 검사, 변호사 등의 법률 전문가들은 구글을 끼고 살듯이, 법률 GPT를 반려 인공지능 삼아 업무를 보고, 시민들은 법률 GPT를 통해 초기 상담을 받는 날이 머지않았다.

임영익 webmaster@aitimes.kr

다른기사 보기

상단영역

본문영역

[칼럼] 임영익 인텔리콘 대표변호사, GPT-4는 변호사를 대체 하는가?

기사 댓글 0

비회원 로그인