생성 모델 — 데이터를 만들어내는 AI → VAE & GAN

GAN 학습 루프

생성기(generator)와 판별기(discriminator) 훈련 루프를 구현하고 모드 붕괴(mode collapse)를 이해합니다.

1 / 18

적대적 생성의 아이디어: 위조범 vs 경찰

What — 적대적 생성 네트워크(GAN)란?GAN은 두 신경망이 서로 경쟁(adversarial game)하며 데이터를 생성하는 프레임워크 (Goodfellow et al., 2014)생성자(Generator, G): 랜덤 노이즈 $z$로부터 가짜 데이터를 만드는 위조범판별자(Discriminator, D): 입력이 진짜인지 가짜인지 구분하는 경찰두 네트워크가 번갈아 학습하면서, G는 점점 정교한 가짜를 만들고 D는 점점 정밀하게 감별함Why — 왜 적대적 구조가 필요한가?기존 생성 모델(VAE 등)은 픽셀 단위 복원 손실을 쓰기 때문에 흐릿한(blurry) 출력을 만드는 경향이 있음GAN은 "진짜처럼 보이는가?"를 판별자가 직접 평가하므로, 선명하고 사실적인 샘플을 생성할 수 있음명시적 확률 분포를 정의하지 않아도 되므로 복잡한 고차원 데이터에 유연하게 적용 가능핵심 통찰: "좋은 생성"의 기준을 사람이 설계하지 않고, 판별자가 학습으로 발견하게 함How — 적대적 게임의 작동 원리[여기에 다이어그램]다이어그램 구성 요소:왼쪽: 잠재 벡터 $z \sim p(z)$ (가우시안 노이즈) → Generator G 블록 → 생성된 가짜 이미지 $G(z)$오른쪽 상단: 실제 데이터 $x \sim p_{data}$ (진짜 이미지)중앙: Discriminator D 블록에 진짜 $x$와 가짜 $G(z)$가 각각 입력됨출력: $D(x) \rightarrow 1$(진짜), $D(G(z)) \rightarrow 0$(가짜)으로 판별화살표 ①: D의 피드백이 G로 역전파 → G는 $D(G(z)) \rightarrow 1$이 되도록 업데이트화살표 ②: D는 진짜/가짜를 더 잘 구분하도록 업데이트하단 타임라인: 학습 초기(G 출력 = 노이즈) → 중기(윤곽 형성) → 후기(사실적 이미지)Minimax 목적 함수\min_G \max_D \; V(D, G) = \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]\log D(x): D가 진짜를 진짜로 판별할 확률 → D는 이를 최대화\log(1 - D(G(z))): D가 가짜를 가짜로 판별할 확률 → D는 최대화, G는 최소화내쉬 균형(Nash Equilibrium)에 도달하면 D^{*}(x) = \frac{1}{2}, 즉 판별 불가 상태 (Goodfellow et al., 2014)위조범 vs 경찰 비유 정리라운드 1: 위조범(G)이 허술한 위조지폐 제출 → 경찰(D)이 즉시 적발라운드 N: 위조범이 점점 정교한 지폐 제작 → 경찰도 감별 기술 향상최종: 위조지폐와 진짜 지폐를 구분할 수 없는 수준에 도달이 과정에서 G는 p_{data}의 분포를 암묵적으로 학습하게 됨GAN vs VAE 핵심 차이손실 함수: VAE = 복원 + KL → 픽셀 평균화(흐릿함) / GAN = 적대적 손실 → 선명한 경계잠재 공간: VAE = 명시적 정규분포 강제 / GAN = 암묵적 학습, 구조 보장 없음학습 안정성: VAE = 안정적 수렴 / GAN = 모드 붕괴(mode collapse) 등 불안정 가능밀도 추정: VAE = 가능(ELBO) / GAN = 불가(암묵적 모델)

0:00

1:54

🎓 강의 스크립트

오늘은 딥러닝에서 가장 혁신적인 아이디어 중 하나인 갠, 적대적 생성 신경망을 배워보겠습니다.

갠의 핵심 아이디어를 한마디로 말하면, 위조범과 감별사의 대결입니다.

그림 왼쪽을 보세요, 파란 상자가 제너레이터, 즉 위조범입니다.

제너레이터는 랜덤 노이즈 z에서 출발해서 가짜 데이터를 만들어냅니다.

z는 표준정규분포에서 샘플링한 벡터로, 이것이 생성의 씨앗이 됩니다.

가운데 빨간 상자를 보면, 디스크리미네이터가 있습니다.

디스크리미네이터는 입력이 진짜인지 가짜인지 판별하는 분류기 역할을 합니다.

출력값은 영과 일 사이의 확률값으로, 일에 가까우면 진짜라고 판단하는 것입니다.

오른쪽 결과 상자를 보세요, 학습 초기에는 진짜 데이터는 영점구오, 가짜는 영점일이라는 확률이 나옵니다.

즉 디스크리미네이터가 쉽게 구분할 수 있는 상태입니다.

핵심은 이 두 네트워크가 서로 경쟁하며 동시에 발전한다는 것입니다.

아래 보라색 타임라인을 보시면 학습이 진행됨에 따라 제너레이터의 품질이 어떻게 변하는지 보입니다.

에폭 일에서는 노이즈 수준이지만, 에폭 이백이 되면 고품질 생성물이 됩니다.

하단의 파란 수식 상자를 보세요, 이것이 갠의 미니맥스 목적 함수입니다.

제너레이터는 이 값을 최소화하고, 디스크리미네이터는 최대화합니다.

이 경쟁이 바로 적대적 학습의 본질입니다.

수렴하면 디스크리미네이터의 출력이 영점오에 가까워집니다.

이는 진짜와 가짜를 전혀 구분하지 못한다는 뜻입니다.

이안 굿펠로가 이천십사년에 이 아이디어를 제안했고, 딥러닝 역사를 바꿨습니다.

자 이제 각 구성 요소를 자세히 살펴보겠습니다.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비