확률 분포와 생성 모델 — 불확실성을 다루는 수학

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

선형대수 기말고유값 시험확률통계 정리AI 수학 과제

비전공/입문자

선형대수 쉽게머신러닝 수학AI에 필요한 수학

취준생

데이터 사이언스 수학ML 수학 면접

직장인

실무에 필요한 수학

대학원생/연구자

convex optimization정보 이론 논문

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

확률 분포와 생성 모델 — 불확실성을 다루는 수학

1 / 15

왜 확률 분포가 중요한가?

확률 분포 = AI의 근본 언어. 모든 생성 모델은 "데이터의 확률 분포를 학습하고 샘플링"하는 것입니다.

</div>

확률 분포는 AI의 근본 언어입니다. 모든 생성 모델은 결국 "데이터의 확률 분포를 학습하고 샘플링한다"는 것입니다.

AI에서 분포가 핵심인 이유:

- 분류: P(클래스|입력) — softmax 출력은 카테고리컬 분포

- 생성: P(이미지), P(텍스트) — 데이터 분포에서 샘플링

- 학습: 손실 함수 = 두 분포의 거리 측정 (KL divergence, cross-entropy)

- 정규화: 가중치 분포에 제약 (Gaussian prior → L2)

핵심 질문:

"이미지 생성"이란 무엇인가? → 훈련 이미지들의 확률 분포 P_data(x)를 학습하고, 그 분포에서 새로운 x를 샘플링하는 것입니다.

참고문헌: Gauss (1809)가 정규 분포를 정립한 이래, 확률 분포는 모든 통계 및 기계학습의 기초가 되었습니다.

0:00

1:47

🎓 강의 스크립트

확률 분포는 인공지능의 가장 근본적인 언어입니다.

오늘 우리가 사용하는 모든 생성 AI는 결국 데이터의 확률 분포를 학습하고 샘플링하는 것이에요.

그림 왼쪽을 보세요, 입력 데이터가 있습니다.

이미지, 텍스트, 음성 같은 데이터는 모두 어떤 확률 분포에서 나온 샘플이에요.

가운데 영역을 보시면 확률적 모델링이라는 큰 틀이 있습니다.

분류는 입력이 주어졌을 때 정답 확률을 출력하는 것이고요.

생성은 데이터 분포 자체를 학습해서 새로운 샘플을 만드는 겁니다.

그리고 학습이라는 것은 결국 두 분포 사이의 거리를 줄이는 과정이에요.

오른쪽을 보시면 이미지 생성, 텍스트 생성, 이상탐지까지 모두 분포 기반이죠.

이제 하단의 분포 동물원을 봅시다.

가우시안은 연속값에, 베르누이는 이진 선택에 사용됩니다.

카테고리컬은 다중 분류, 포아송은 사건 횟수를 모델링해요.

지수족은 이 모든 분포를 하나로 통합하는 프레임워크입니다.

그리고 잠재 변수 모델은 관측할 수 없는 숨겨진 원인을 다루는 거예요.

하단의 파란 상자를 보면, 결국 공통 원리는 분포를 학습하고 샘플링하는 것입니다.

이 레슨에서는 이 모든 분포의 기초부터 브이에이이, 플로우, 디퓨전까지 한 흐름으로 다룹니다.

확률 분포를 제대로 이해하면 생성 AI의 원리가 투명하게 보이게 됩니다.

자, 가우시안 분포부터 시작해봅시다.

중심극한정리 때문에 가우시안이 왜 그렇게 중요한지 곧 알게 될 거예요.

준비되셨나요? 불확실성을 다루는 수학의 세계로 들어갑시다.

💬 강의 Q&A

0:00

0:30

🎓 강의 스크립트

선생님: 확률 분포가 AI에서 왜 이렇게 핵심적인 역할을 할까요?

학생: 음, AI가 불확실한 상황에서 결정을 내려야 하니까요?

선생님: 맞아요! 그런데 더 근본적인 이유가 있어요.

선생님: 손실 함수 자체가 두 분포의 거리를 측정하는 것이거든요.

선생님: 크로스엔트로피가 바로 카테고리컬 분포의 음의 로그 가능도인 거죠.

학생: 아, 그러니까 학습 자체가 분포를 맞추는 과정이란 뜻이군요!