[AI TECH 컬럼] 물리학의 엔트로피 법칙과 딥러닝의 크로스 엔트로피
[AI TECH 컬럼] 물리학의 엔트로피 법칙과 딥러닝의 크로스 엔트로피
  • 강신동 지능도시 대표
  • 승인 2019.09.20 02:31
  • 댓글 0
이 기사를 공유합니다

딥러닝에서 널리 사용하는 크로스 엔트로피와 물리학의 연결고리에 대한 생각 
필자 강신동은 한국산업기술대학 컴퓨터공학과 겸임교수와 서울시 IoT 추진 기술전문위원, 한국건설기술연구원 등을 역임했으며, 현재 ㈜지능도시 설립자/대표이자 ujava.org forum, Smart Beam forum 설립 및 운영자로 활동하고 있다.
필자 강신동은 한국산업기술대학 컴퓨터공학과 겸임교수와 서울시 IoT 추진 기술전문위원, 한국건설기술연구원 등을 역임했으며, 현재 ㈜지능도시 설립자/대표이자 Smart Beam forum 설립 및 운영자로 활동하고 있다.

물리학에는 우주의 시간 흐름과 관련된 것으로 생각할 수 있는 재미있는 물리학적 상태 함수로서 엔트로피 (entropy)가 있다.

엔트로피의 재미있는 법칙은, 시간이 흐를 때, 자발적인 상태 변화는 항상 엔트로피가 증가한다고 하는 매우 중요한 물리학 법칙인 엔트로피 증가의 법칙이 있다.

우리 우주를 관통하는 원리인 엔트로피 증가의 법칙은 물리학과 별로 관련이 없어 보이는 수학 분야에서 세기의 난제로 알려졌던 프앙카레(Poincare) 추측 문제를 러시아 수학자 그리고리 페렐만 (Grigori Perelman)이 물리학의 엔트로피 법칙을 이용하여 세기의 수학 문제를 해결하여 수학적으로도 매우 유용한 것에 물리학자는 물론이고 수학자조차 학제를 뛰어넘는 그 연결 고리에 놀란 경험을 하였다.

이러한 엔트로피 개념은 수학적인 개념으로 연결된 딥러닝 AI 분야에서 엔트로피와 크로스 엔트로피 (cross entropy) 개념으로 다시 마주할 수 있다.

정보 처리에서 서로 다른 두 가지 확률분포의 차이를 측정하는 것으로 KL 다이버전스 (divergence)가 있다.

KL divergence (p,q) = Cross entropy (p,q) - Entropy (p)

알고 싶지만 알지 못하는 실제 확률분포와 어쩔 수 없이 가상으로 만든 추론적인 확률분포의 차이를 측정한다고 한다면, KL 다이버전스는 항상 0보다 크게 된다.

즉, 예측에 따른 엔트로피 (cross entropy)는 실제의 entropy 보다 항상 커서 물리학에서 말하는 엔트로피 증가법칙과 뭔가(?) 연결 고리는 없을까라는 호기심을 가지게 한다.

딥러닝 AI 정보학의 엔트로피 증가 법칙이 물리학의 엔트로피 증가 법칙과 관련된 것으로 보고 연결 고리를 생각해보자.

딥러닝 학습 과정은 크로스 엔트로피를 감소시키는 방향으로 진행하는 것으로서, 자연스럽지 않은 강제적인 비자발적인 과정의 학습 과정이라고 볼 수 있다.

잉크와 물은 저절로 섞인다. (출처: flowillustrator.com)
잉크와 물은 저절로 섞인다. (출처: flowillustrator.com)

딥러닝 학습 과정에서 크로스 엔트로피를 감소시키는 학습 과정은 물리학에서 잉크를 물에 떨어뜨렸을 때와 비교할 수 있다.

잉크 방울과 물이 어지럽게 섞여 있는 복잡한 상황으로부터 시간을 거슬러 올라가서, 잉크 방울과 물이 섞이기 전의 초기 상태로 강제로 시간을 거슬러 올라가서 엔트로피를 감소시키는 방향으로 강제로 상태를 이동시키는 과정이라고 볼 수 있다.

잉크가 물과 섞이는 과정의 시간을 거꾸로 올라가면 초기의 상태에 이르는데, 물과 잉크가 완전히 분리된 상태로 어떤 것이 정확히 물이고 어떤 것이 정확히 잉크라고 말할 수 있는 명확히 지칭할 수 있는 상황에 이를 수가 있다.

결론적으로 이러한 상황이 되면, 상태를 명확히 분류할 수 있게 되며 고양이인지 개인지 명확히 판단을 내릴 수 있게 되며 학습이 충분히 되었다고 볼 수 있는 것이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.