필자는 "특허와 같은 수단으로 기술을 보호해야 한다고 말하려 한다. AI 스타트업이 오픈소스 프레임워크와 클라우드 서비스를 기반으로 IT 시장 전반의 영향력을 키우고 있는 빅테크의 전략을 따르는 것은 옳지 않다. 말려들지 말아야 한다고 권하고 싶다"...

위포커스 특허법률사무소 김성현 대표 변리사
위포커스 특허법률사무소 김성현 대표 변리사

필자, 위포커스 특허법률사무소 김성현  대표변리사는 한양대에서 정보통신을 전공하고, 고려대에서 기술경영으로 석사학위를 받았다. 현재, 인공지능(AI) 및 데이터와 스타트업 전문 변리사로 활동 중이다. 특히, AI 학습 데이터 플랫폼 기업 크라우드웍스의 상장 준비 과정에서 지식재산권 최고책임자를 맡기도 했다. 창업진흥원, 서울창업허브, 서울창조경제혁신센터, 성남산업진흥원 등 스타트업 보육 기관에서 평가, 멘토링, 강의 및 세미나를 꾸준히 진행하고 있다.<편집자 주>

챗GPT(ChatGPT)를 필두로 생성형 AI(Generative AI)에 대한 기대와 관심이 폭발하고 있다. 변리사인 필자가 오픈AI(OpenAI)의 대표자라면 하나부터 열까지 모두 특허를 받아두었을 것 같지만. 오픈AI는 특허에는 좀처럼 관심이 없는 듯 보인다.

인공지능 생태계가 그렇다. 그들은 개방, 참여, 공유가 지속적인 혁신을 만든다고 믿는다. 이 같은 개방성은 다른 기술 분야와 구별되는 독특함이다. 다른 기술 분야라면 서비스의 핵심(core)에 해당하는 알고리즘과 아키텍처들이 무료로 공개된다.

그렇지만 필자는 특허와 같은 수단으로 기술을 보호해야 한다고 말하려 한다. AI 스타트업이 오픈소스 프레임워크와 클라우드 서비스를 기반으로 IT 시장 전반의 영향력을 키우고 있는 빅테크의 전략을 따르는 것은 옳지 않다. 말려들지 말아야 한다고 권하고 싶다.

기술을 보호한다는 것은 달리 표현하면, 모방을 불가능하게 또는 모방의 난이도를 높이는 모든 것이다. 첫 번째 방법은 워렌 버핏이 얘기한 경제적 해자(moat)를 만드는 것이다. 필자가 생각하기에 AI 분야의 경우 고성능 컴퓨팅 자원과 인프라부터 커다란 진입 장벽 역할을 하고 있다. 그렇기에 오픈AI 같은 기업도 마이크로소프트(MS)에 기대는 것이리라.

두 번째 방법은 기술 개발의 난이도가 지나치게 높아 소위 기술적 해자가 만들어지는 경우이다. 기술 개발의 불확실성이 높은데 비용과 시간을 함부로 투자하기 어렵기 때문이다. 대형언어모델(Large Language Model, LLM) 초거대언어모델이 이 같은 경우가 아닐까 싶다. 데이터의 양도 양이지만 수천억 개의 파라미터를 최적화하는 것은 쉬운 일이 아니니까 말이다.

세 번째로 보편적인 기술 보호 방식은 특허다. 스타트업이 선택할 수 있는 방법도 역시 특허가 유일하지 않을까 싶다. 다른 전문가들의 글을 참고하기 위해서 '인공지능 특허 전략'으로 검색을 해보았지만 만족스러운 글은 발견하지 못했다.

대부분 "소프트웨어 특허와 다를 바 없다", "침해를 잘 입증할 수 있게 받아야 한다"라는 정도의 교과서 같은 설명들이었다. 특허청의 심사기준을 소개하면서 특허 명세서에 무엇을 설명해야 하고 이런 내용들은 쓰면 안 된다는 식의 정보들도 있었다.

그것도 아니면 '머신러닝 분야의 특허출원이 증가하고 있다'라는 코멘트와 함께 전반적인 통계를 전달해 주는 정도에 불과했다.

그러면 특허를 내는 게 맞기는 할까? 특허를 받아야 한다고 하면 항상 나오는 질문은 '노하우'로 보호하면 안 되냐는 것이다. 인공지능 생태계의 개방적인 분위기 속에서 노하우 형태의 보호가 가능한가 싶다. 소스코드는 공개하면서 공개하지 않는 다른 무엇이 있는지 궁금하다.

어쩌면 함께 공개하지 않는 그 무엇이 해당 모델의 코어일 수도 있겠다. 이 부분은 개발자의 조언이 필요할 듯하다. 노하우로 보호할지 결정할 때 대표적인 기준은 리버스 엔지니어링(Reverse Engineering)의 가능 여부이다. 리버스 엔지니어링을 통해서 손쉽게 재현할 수 있는 정도라면 특허를 통해서 대외적으로 공개하고 권리를 갖는 편이 낫기 때문이다. 연구개발 속도도 고려 요소이다. 스스로에게 질문을 던져보자.

본격적으로 AI 기술에 대해서 특허를 받는 최적의 방법을 알아보자. 필자는 밸류체인 기반으로 특허를 받는 방법을 제안해오고 있다. 특허는 가치 있는 것에 대해서 받아야 하는 것이고, 그러려면 기업의 비즈니스에서 가치가 만들어지고 전달되는 과정을 파악하는 것이 먼저이기 때문이다.

AI 기술이 결합된 비즈니스의 밸류체인은 여러 형태가 있을 수 있다. 지면 관계로 단순화하고 표준화하면 대부분 데이터 수집 - 데이터 전처리 - 모델 학습 - 추론 및 응용으로 구조화할 수 있다. AI 기술 기반 사업을 하고 있는 독자라면 지금부터 생각해 보자. 당신이 가진 기술의 경쟁력은 어느 과정에서 나오는가? 그리고 경쟁력을 지속하기 위해서 지키고 싶은 것인 무엇인가?

이해를 돕기 위해서 AI 기반 자동번역 솔루션을 제공하는 가상의 비즈니스를 예로 들어 설명해 보겠다.

먼저, 데이터 수집 과정부터 살펴보자. 사실 이 팀은 구어체 번역에 강점을 가지고 있다. 슬랭(slang) 단어에 대한 번역 성능도 우수하다. 대화 속 어감과 뉘앙스를 잘 전달하는 것이 서비스의 특장점이다. 데이터-센트릭(Data-centric)으로 AI 개발의 중심이 이동하면서 데이터의 중요성은 더욱 높아졌다. 구어체 데이터는 사실 확보부터 어려운 게 실정이다. 그렇다면 데이터 확보를 가능하게 한 이 차별점부터 특허를 받아보는 것은 어떨까. 비법이 무엇일까?

다음으로 데이터 전처리 과정 특히 정제 부분을 다뤄보자. 빅데이터에서 스몰데이터로의 전환 움직임을 고려하면, 데이터 확보와 함께 전처리가 핵심 경쟁 요소가 될 수 있다. 결국 인간이 만든 데이터를 학습하게 되는 AI는 불완전한 인간을 닮을 수밖에 없다.

그래서 인종, 성별, 정치, 종교적인 편향을 필터링하는 작업이 필수적이다. AI 챗봇 '이루다'를 떠올려 보자. 챗GPT도 GPT 3.5의 데이터 중 일부만을 필터링하는 과정을 거쳤다. 구어체 번역 데이터 말뭉치(corpus)를 그대로 가져다 쓰지 않고 추가적인 작업을 적용할 것이다.

필자의 상상력을 보태면 특정 단위로 분할하기도 하고, 아이디를 붙여서 사전을 만들기도 하고, 앞선 슬랭 단어에는 별도의 태깅을 쓰기도 할 듯하다. 실제로 전처리 내용이 무엇이든 평범하지 않은 사항이 있다면 특허를 내보자.

모델 학습 과정이 어쩌면 가장 빛나야 한다고 생각할지도 모르겠다. 필자의 생각은 반대다. AI의 학습 과정은 제조업의 생산 공정과 닮아 있다. 출시된 제품만 놓고 보면 확인하기 어렵다는 뜻이다.

그리고 학습 알고리즘과 방법론은 사실 선택의 문제에 가까워졌다. 생태계에서 웬만한 것은 모두 제공하고 있기 때문이다. 다양한 벤치마크를 통해서 새로운 SOTA(State-of-the-art) 알고리즘이 계속해서 나오고 있다. 실험해 보고 그중에서 최적의 조합을 선택하면 되지 않을까.

물론, SOTA 알고리즘을 비롯해서 다양한 모델을 다루는 능력도 경쟁력이라고 할 수 있다. 다만 그것은 인력의 역량에 관한 것이어서 특허를 받을 수 있는 대상이 되지 않는다. 그렇다고 특허를 받기 위해서 알고리즘 개발에 집중하는 것은 추천하고 싶지 않다. 자원 낭비이다.

마지막으로는 추론과 응용 과정이다. 연구나 개발을 하는 분들은 껍데기에 불과하다고 생각할지도 모르겠다. 이런 것 말고 원천 특허를 받고 싶다고 하는 경우도 많다. 하지만, 필자는 응용이 가장 중요하다고 생각한다.

AI 분야의 특징 중 하나는 기술 개발 속도, 다른 말로 하면 기술 진부화 속도가 빠르다는 것이다. 글을 쓰고 있는 지금 이 순간에도 새로운 모델들이 계속 발표되고 벤치마크를 통해서 기존 모델들과 경쟁하고 있다.

제품이나 서비스가 겉으로는 변한 것이 없는데, 내부적으로는 새로운 학습 방법, 알고리즘, 모델 등을 계속해서 바꿔 나간다. 껍데기는 그대로인데 말이다. 당연히 특허는 변하지 않는 것에 대해서 받을수록 좋다.

추론과 응용의 구조는 어떻게 특허를 받으면 좋을까. 인간 지능을 인공 지능으로 대체시키는 방식만으로는 특허를 받기 어렵다. 그렇게 되면 인간의 사업 아이디어를 온라인상의 컴퓨터 처리로 대체한 BM 특허와 사실상 동일한 구조가 돼버린다. '자동화'가 아니라 '지능화'가 필요하다.

지능화라는 것은 자동화를 넘어선, 즉 인간을 대신하는 것이 아니라 인간에게는 불가능했던 것을 해내는 수준이어야 한다 의미이다. AI 기반 자동번역 솔루션의 예에서 인간 통번역사로는 하지 못했던 새로운 것이 무엇인지 또는 인간의 통번역 과정과 다른 추가적인 프로세스가 있는지 그 부분을 자세히 들여다보자.

혹자는 UI/UX 특허를 받도록 권장하기도 한다. 화면에 보이는 것을 그대로 특허로 받기 때문에 경쟁사의 침해를 적발하기 유리하다는 의견이다. 그런데 UI/UX는 유용성, 신뢰성, 사용성, 편의성, 감성, 의미성 등 기술이라기보다는 사용자 경험에 관한 요소가 강하기 때문에 모방이 쉽고 빠져나가기도 쉽다.

이상의 내용을 토대로 AI 기술 보호를 원하는 독자분들이 스스로에게 해야 할 질문을 정리해 보면 다음과 같다. 너무 잘 알려져서 이제는 평범해진 질문일 수도 있고, 앞서 말한 것처럼 추천하지 않는 내용에 관한 질문도 있지만, 반드시 거쳐야 하는 질문이기도 하다.

1. 기술적 과제는 무엇이고, 개발 중 시행착오는 어떤 게 있었으며, 종래의 방식이 왜 문제인가

2. 효과는 무엇이며, 어떤 작용으로 발휘되며, 어떻게 확인할 수 있는가

3. 데이터 수집, 데이터 전처리, 모델 학습, 추론 및 응용 중 어느 과정과 관련되어 있는가

4. 입력 데이터는 무엇이고, 학습에 사용되는 데이터의 유형은 무엇인가

5. 데이터 수집은 어떻게 이루어지는가? 자동화 또는 고유의 방식이 있는가

6. 학습 전에 데이터 전처리는 어떤 방식으로 진행되며, 그것이 왜 필요한가

7. 사용하는 아키텍처는 어떻게 되며, 어떤 요소가 기술적 과제 해결에 기여하는가

8. 뉴럴 네트워크의 개별 레이어의 구조나 입출력 연결이나 활성 함수 등에 특징이 있는가

9. 모델 학습 과정에서 사용되는 손실 함수는 무엇이고 특징적인 태스크가 있는가?

10. 하이퍼파라미터나 최적화 알고리즘에서 차별화한 부분이 있는가

11. 뉴럴 네트워크 중 일부를 고정하거나, 학습 과정이 분리/공동으로 이뤄지거나, 여러 단계로 나누어지는가

12. 추론 및 응용 과정에서 출력되는 데이터는 무엇이며, 데이터 후처리가 존재하는가

13. 추론이 사용하는 특정 구조나 방법론을 통한 개선 사항이 있는가

14. 추론이 또 다른 뉴럴 네트워크의 입력으로 사용되는가

15. 추론 결과가 피드백에 사용되는지, 추론 및 응용 과정에서 업데이트는 어떤 방식으로 이루어지는가

16. 추론 및 응용 과정에서 컴퓨팅 환경의 제한 요소나 센서 또는 컨트롤러 등 외부 디바이스와의 상호 작용이 있는가

질문에 대한 답을 떠올려 보았는가? 그것이 내 비즈니스 또는 기술을 지켜내는 데 도움이 될 것이라는 확신이 드는가? 그렇다면, 지금 당장 변리사에게 자문해 보는 것이 현명한 판단일 것이다. 기회를 놓치지 말자.

저작권자 © 인공지능신문 무단전재 및 재배포 금지