이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 인공지능 수학 — AI를 떠받치는 수학적 기초 → 확률과 정보이론
안녕하세요, 오늘은 머신러닝의 핵심 언어인 정보 이론을 배울 거예요.
그림의 맨 왼쪽 파란 상자를 보세요. 손실 함수라고 적혀 있죠?
우리가 분류 문제에서 매일 쓰는 크로스 엔트로피 로스가 바로 정보 이론에서 나왔어요.
그 옆의 빨간 상자를 보면, KL 다이버전스가 있어요. 모델 비교에 쓰여요.
KL 다이버전스는 두 확률 분포가 얼마나 다른지를 측정하는 비대칭 거리예요.
가운데 초록 상자는 상호 정보량이에요. 두 변수가 공유하는 정보를 측정해요.
보라색 상자를 보세요. 결정 트리에서 어떤 특징으로 분기할지 정보 이득으로 결정해요.
마지막 시안색 상자는 생성 모델이에요. VAE의 ELBO가 정보 이론으로 유도돼요.
이 다섯 영역 모두 그림 아래쪽의 파란 중앙 박스로 연결되죠.
공통 기반은 섀넌 엔트로피 H(X) = 마이너스 시그마 P(x) log P(x)예요.
1948년 클로드 섀넌이 통신 문제를 풀기 위해 만든 공식이에요.
그림 하단의 타임라인을 보세요. 1948년 섀넌부터 시작이에요.
1951년에 쿨백과 라이블러가 KL 다이버전스를 발표했어요.
1986년에는 퀸란이 ID3 결정 트리에서 정보 이득을 활용했어요.
2014년에는 VAE와 GAN에서 KL이 핵심 역할을 하게 되었어요.
2017년 이후에는 정보 병목 이론으로 딥러닝의 일반화를 설명하기 시작했어요.
정보 이론은 단순한 수학이 아니라 ML의 근본 언어예요.
손실 함수, 모델 선택, 특징 공학, 생성 모델 전부를 하나로 묶어주죠.
오늘 이 수업을 통해 그 연결고리를 하나씩 풀어볼 거예요.
자, 그러면 먼저 "놀라움"이란 무엇인지부터 시작해 볼까요?
선생님: 크로스 엔트로피 로스를 매일 쓰면서, 이 공식이 어디서 왔는지 궁금했던 적 있나요?
학생: 네, 그냥 분류에 잘 맞으니까 썼는데 정보 이론이라는 배경이 있었군요.
선생님: 맞아요. 크로스 엔트로피는 사실 두 분포 사이의 정보 차이를 측정하는 거예요.
학생: 그러면 KL 다이버전스와는 어떤 관계가 있나요?
선생님: 크로스 엔트로피는 KL 다이버전스에 상수를 더한 것과 같아요. 나중에 자세히 볼게요.
학생: 정보 이론 하나가 이렇게 많은 곳에 쓰이는 줄 몰랐어요.