Stable Diffusion 파이프라인 — 텍스트에서 이미지로

잠재 확산(latent diffusion), U-Net 디노이저(denoiser), 그리고 Stable Diffusion 아키텍처를 이해합니다.

1 / 17

3개의 핵심 모듈: CLIP + U-Net + VAE

What — Stable Diffusion의 3대 구성 요소

Stable Diffusion은 텍스트→이미지 생성을 위해 세 개의 독립된 신경망을 조립한 시스템이다 (Rombach et al., 2022):

- CLIP Text Encoder: 텍스트 프롬프트를 의미 벡터(토큰 임베딩 시퀀스)로 변환

- U-Net Denoiser: 잠재 공간(latent space)에서 노이즈를 반복 제거

- VAE (Variational Autoencoder): 픽셀 공간 ↔ 잠재 공간 간 변환을 담당

Why — 왜 세 모듈을 분리하는가?

- 계산 효율: 512×512 이미지를 직접 디노이징하면 픽셀 수 = 262,144 × 3채널. VAE로 64×64×4 잠재 벡터로 압축하면 연산량이 약 48배 감소 (Rombach et al., 2022)

- 모듈 독립성: CLIP은 텍스트-이미지 정렬을 사전학습(Radford et al., 2021)으로 이미 해결 → U-Net은 "의미 이해" 부담 없이 노이즈 제거에 집중

- 재사용성: VAE Decoder만 교체하면 해상도 업스케일, CLIP만 교체하면 다국어 지원 등 모듈별 업그레이드 가능

How — 각 모듈의 역할과 데이터 흐름

[여기에 다이어그램: Stable Diffusion 아키텍처 파이프라인]

- 좌측: 사용자 프롬프트 "a cat on the moon" → CLIP Text Encoder 박스 → 출력: 텍스트 임베딩 $c \in \mathbb{R}^{77 \times 768}$

- 중앙: 랜덤 노이즈 z_T \in \mathbb{R}^{64 \times 64 \times 4} → U-Net 박스 (Cross-Attention으로 c를 주입받는 화살표 표시) → 반복 디노이징 루프 (T → T-1 → ... → 0) → 깨끗한 잠재 벡터 $z_{0}$

- 우측: z_0 → VAE Decoder 박스 → 최종 이미지 512×512×3

- 하단 별도: VAE Encoder가 학습 시 실제 이미지를 z_0로 인코딩하는 역방향 화살표

모듈 1: CLIP Text Encoder

- 구조: Transformer 기반 텍스트 인코더 (ViT-L/14 기준 12층)

- 입력: 토큰화된 프롬프트 (최대 77토큰)

- 출력: 각 토큰의 문맥 임베딩 시퀀스 $c = \text{CLIP}_{\text{text}}(\text{prompt})$

- 핵심: 대조 학습(contrastive learning)으로 사전학습되어 "고양이"와 고양이 이미지가 같은 임베딩 공간에 위치 (Radford et al., 2021)

- 비유: 외국어 통역사 — 사람의 말을 U-Net이 이해할 수 있는 "의미 언어"로 번역

모듈 2: U-Net Denoiser (조건부)

- 구조: 인코더-디코더 + Skip Connection + Cross-Attention 레이어

- 입력: 노이즈 잠재 벡터 z_t, 타임스텝 t, 텍스트 임베딩 $c$

- 출력: 예측 노이즈 $\epsilon_\theta(z_t, t, c)$

- Cross-Attention 작동 방식:

- Query = U-Net의 중간 feature map

- Key, Value = CLIP 텍스트 임베딩 $c$

- "moon" 토큰의 임베딩이 배경 영역 feature에 높은 attention을 받음

- 비유: 복원 전문가가 "달 위의 고양이" 설명서(CLIP 출력)를 보며 손상된 그림(노이즈)을 복원

[여기에 다이어그램: Cross-Attention 상세]

- U-Net feature map에서 Query 추출 → CLIP 임베딩에서 Key/Value 추출 → Attention Score 계산 → 텍스트 조건이 공간적으로 반영되는 과정

- $\text{Attention}(Q, K, V) = \text{softmax}(QK^{T} / \sqrt{d_k}) \cdot V$

모듈 3: VAE (Encoder + Decoder)

- Encoder \mathcal{E}: 이미지 x \in \mathbb{R}^{512 \times 512 \times 3} → 잠재 벡터 z \in \mathbb{R}^{64 \times 64 \times 4} (학습 시 사용)

- Decoder \mathcal{D}: 잠재 벡터 z_0 → 이미지 \hat{x} \in \mathbb{R}^{512 \times 512 \times 3} (추론 시 사용)

- 압축 비율: 공간 8배 축소 (512→64), 채널 3→4

- 핵심 이점: U-Net이 작은 잠재 공간에서만 작동하므로 GPU 메모리 8~16GB로 고해상도 생성 가능

- 비유: 건축 설계도(잠재 벡터) vs 실제 건물(픽셀 이미지) — 설계도 위에서 수정이 훨씬 빠름

전체 파이프라인 정리 (추론 시)

- Step 1: 프롬프트 → CLIP → 텍스트 임베딩 $c$

- Step 2: 랜덤 가우시안 노이즈 z_T 샘플링

- Step 3: U-Net이 z_T에서 z_0까지 반복 디노이징 (각 스텝마다 c를 Cross-Attention으로 참조)

- Step 4: VAE Decoder가 z_0 → 최종 이미지 변환

Latent Diffusion이 가져온 혁신

- 기존 DDPM: 픽셀 공간에서 직접 디노이징 → 256×256이 한계 (Ho et al., 2020)

- Latent Diffusion: 잠재 공간에서 디노이징 → 512×512, 1024×1024까지 확장 가능

- 실제 사례: Stable Diffusion v1.5는 소비자 GPU(RTX 3060)에서 ~5초 만에 512×512 이미지 생성

0:00

1:58

🎓 강의 스크립트

오늘 우리가 만나볼 스테이블 디퓨전은 텍스트 한 줄로 이미지를 만들어내는 놀라운 시스템입니다.

이 시스템의 비밀은 세 개의 모듈이 정교하게 협력한다는 데 있습니다.

그림 상단을 보시면, 왼쪽부터 CLIP, U-Net, VAE 세 모듈이 나란히 배치되어 있습니다.

첫 번째 모듈인 CLIP 텍스트 인코더를 보세요.

사용자가 입력한 프롬프트를 77개 토큰, 768차원의 임베딩 벡터로 변환합니다.

CLIP은 1억 2천3백만 개의 파라미터를 가지고 있지만, 학습 시에는 동결 상태로 유지됩니다.

가운데 주황색 영역의 U-Net을 보세요. 이것이 핵심 엔진입니다.

U-Net은 잠재 공간에서 노이즈를 예측하고 제거하는 디노이저 역할을 합니다.

8억 6천만 개의 파라미터로 구성되며, 학습 대상이 되는 유일한 모듈이에요.

오른쪽 초록색 영역의 VAE 디코더를 보세요.

64 곱하기 64 곱하기 4 크기의 잠재 벡터를 512 곱하기 512 곱하기 3 RGB 이미지로 변환합니다.

이것이 바로 8배 업스케일링 과정입니다.

그림 아래쪽 U-Net 내부 구조를 보시면, 다운 블록과 업 블록 사이에 스킵 커넥션이 연결되어 있습니다.

이 스킵 커넥션 덕분에 세밀한 디테일 정보가 보존됩니다.

왼쪽 하단 파라미터 비교 표를 보면, CLIP과 VAE는 동결이고 U-Net만 학습합니다.

왜 이런 설계일까요? U-Net에 학습 자원을 집중하기 위해서입니다.

오른쪽 하단 데이터 흐름을 따라가 보세요.

텍스트가 조건 벡터가 되고, 순수 노이즈가 깨끗한 잠재 벡터가 되고, 최종 이미지가 됩니다.

이 세 모듈의 분업 구조가 스테이블 디퓨전의 효율성과 품질을 동시에 달성하는 핵심 원리입니다.

이제 각 모듈의 내부 동작을 하나씩 깊이 들여다보겠습니다.

💬 강의 Q&A

0:00

0:49

🎓 강의 스크립트

선생님: 여러분, CLIP, U-Net, VAE 중에서 학습 시 파라미터가 업데이트되는 모듈은 무엇일까요?

학생: U-Net만 학습 대상이고, CLIP과 VAE는 동결 상태라고 하셨잖아요.

선생님: 맞아요. 그렇다면 왜 CLIP과 VAE는 동결할까요?

학생: 이미 충분히 잘 학습된 모델이라서, U-Net 학습에 자원을 집중하려는 거 아닌가요?

선생님: 정확합니다. CLIP은 4억 개의 이미지-텍스트 쌍으로 사전 학습되었고, VAE도 이미지 복원에 충분히 최적화되어 있어요.

학생: 그러면 전체 파라미터 대비 실제 학습하는 비율은 얼마나 되나요?

선생님: 전체 약 10억 6천만 중 U-Net의 8억 6천만, 약 80 퍼센트가 학습 대상입니다. 효율적이면서도 핵심에 집중하는 설계죠.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

Stable Diffusion 파이프라인 — 텍스트에서 이미지로

잠재 확산(latent diffusion), U-Net 디노이저(denoiser), 그리고 Stable Diffusion 아키텍처를 이해합니다.

1 / 17

3개의 핵심 모듈: CLIP + U-Net + VAE

What — Stable Diffusion의 3대 구성 요소

Stable Diffusion은 텍스트→이미지 생성을 위해 세 개의 독립된 신경망을 조립한 시스템이다 (Rombach et al., 2022):

- CLIP Text Encoder: 텍스트 프롬프트를 의미 벡터(토큰 임베딩 시퀀스)로 변환

- U-Net Denoiser: 잠재 공간(latent space)에서 노이즈를 반복 제거

- VAE (Variational Autoencoder): 픽셀 공간 ↔ 잠재 공간 간 변환을 담당

Why — 왜 세 모듈을 분리하는가?

- 계산 효율: 512×512 이미지를 직접 디노이징하면 픽셀 수 = 262,144 × 3채널. VAE로 64×64×4 잠재 벡터로 압축하면 연산량이 약 48배 감소 (Rombach et al., 2022)

- 모듈 독립성: CLIP은 텍스트-이미지 정렬을 사전학습(Radford et al., 2021)으로 이미 해결 → U-Net은 "의미 이해" 부담 없이 노이즈 제거에 집중

- 재사용성: VAE Decoder만 교체하면 해상도 업스케일, CLIP만 교체하면 다국어 지원 등 모듈별 업그레이드 가능

How — 각 모듈의 역할과 데이터 흐름

[여기에 다이어그램: Stable Diffusion 아키텍처 파이프라인]

- 좌측: 사용자 프롬프트 "a cat on the moon" → CLIP Text Encoder 박스 → 출력: 텍스트 임베딩 $c \in \mathbb{R}^{77 \times 768}$

- 우측: z_0 → VAE Decoder 박스 → 최종 이미지 512×512×3

- 하단 별도: VAE Encoder가 학습 시 실제 이미지를 z_0로 인코딩하는 역방향 화살표

모듈 1: CLIP Text Encoder

- 구조: Transformer 기반 텍스트 인코더 (ViT-L/14 기준 12층)

- 입력: 토큰화된 프롬프트 (최대 77토큰)

- 출력: 각 토큰의 문맥 임베딩 시퀀스 $c = \text{CLIP}_{\text{text}}(\text{prompt})$

- 핵심: 대조 학습(contrastive learning)으로 사전학습되어 "고양이"와 고양이 이미지가 같은 임베딩 공간에 위치 (Radford et al., 2021)

- 비유: 외국어 통역사 — 사람의 말을 U-Net이 이해할 수 있는 "의미 언어"로 번역

모듈 2: U-Net Denoiser (조건부)

- 구조: 인코더-디코더 + Skip Connection + Cross-Attention 레이어

- 입력: 노이즈 잠재 벡터 z_t, 타임스텝 t, 텍스트 임베딩 $c$

- 출력: 예측 노이즈 $\epsilon_\theta(z_t, t, c)$

- Cross-Attention 작동 방식:

- Query = U-Net의 중간 feature map

- Key, Value = CLIP 텍스트 임베딩 $c$

- "moon" 토큰의 임베딩이 배경 영역 feature에 높은 attention을 받음

- 비유: 복원 전문가가 "달 위의 고양이" 설명서(CLIP 출력)를 보며 손상된 그림(노이즈)을 복원

[여기에 다이어그램: Cross-Attention 상세]

- U-Net feature map에서 Query 추출 → CLIP 임베딩에서 Key/Value 추출 → Attention Score 계산 → 텍스트 조건이 공간적으로 반영되는 과정

- $\text{Attention}(Q, K, V) = \text{softmax}(QK^{T} / \sqrt{d_k}) \cdot V$

모듈 3: VAE (Encoder + Decoder)

- Encoder \mathcal{E}: 이미지 x \in \mathbb{R}^{512 \times 512 \times 3} → 잠재 벡터 z \in \mathbb{R}^{64 \times 64 \times 4} (학습 시 사용)

- Decoder \mathcal{D}: 잠재 벡터 z_0 → 이미지 \hat{x} \in \mathbb{R}^{512 \times 512 \times 3} (추론 시 사용)

- 압축 비율: 공간 8배 축소 (512→64), 채널 3→4

- 핵심 이점: U-Net이 작은 잠재 공간에서만 작동하므로 GPU 메모리 8~16GB로 고해상도 생성 가능

- 비유: 건축 설계도(잠재 벡터) vs 실제 건물(픽셀 이미지) — 설계도 위에서 수정이 훨씬 빠름

전체 파이프라인 정리 (추론 시)

- Step 1: 프롬프트 → CLIP → 텍스트 임베딩 $c$

- Step 2: 랜덤 가우시안 노이즈 z_T 샘플링

- Step 3: U-Net이 z_T에서 z_0까지 반복 디노이징 (각 스텝마다 c를 Cross-Attention으로 참조)

- Step 4: VAE Decoder가 z_0 → 최종 이미지 변환

Latent Diffusion이 가져온 혁신

- 기존 DDPM: 픽셀 공간에서 직접 디노이징 → 256×256이 한계 (Ho et al., 2020)

- Latent Diffusion: 잠재 공간에서 디노이징 → 512×512, 1024×1024까지 확장 가능

- 실제 사례: Stable Diffusion v1.5는 소비자 GPU(RTX 3060)에서 ~5초 만에 512×512 이미지 생성

0:00

1:58

🎓 강의 스크립트

오늘 우리가 만나볼 스테이블 디퓨전은 텍스트 한 줄로 이미지를 만들어내는 놀라운 시스템입니다.

이 시스템의 비밀은 세 개의 모듈이 정교하게 협력한다는 데 있습니다.

그림 상단을 보시면, 왼쪽부터 CLIP, U-Net, VAE 세 모듈이 나란히 배치되어 있습니다.

첫 번째 모듈인 CLIP 텍스트 인코더를 보세요.

사용자가 입력한 프롬프트를 77개 토큰, 768차원의 임베딩 벡터로 변환합니다.

CLIP은 1억 2천3백만 개의 파라미터를 가지고 있지만, 학습 시에는 동결 상태로 유지됩니다.

가운데 주황색 영역의 U-Net을 보세요. 이것이 핵심 엔진입니다.

U-Net은 잠재 공간에서 노이즈를 예측하고 제거하는 디노이저 역할을 합니다.

8억 6천만 개의 파라미터로 구성되며, 학습 대상이 되는 유일한 모듈이에요.

오른쪽 초록색 영역의 VAE 디코더를 보세요.

64 곱하기 64 곱하기 4 크기의 잠재 벡터를 512 곱하기 512 곱하기 3 RGB 이미지로 변환합니다.

이것이 바로 8배 업스케일링 과정입니다.

그림 아래쪽 U-Net 내부 구조를 보시면, 다운 블록과 업 블록 사이에 스킵 커넥션이 연결되어 있습니다.

이 스킵 커넥션 덕분에 세밀한 디테일 정보가 보존됩니다.

왼쪽 하단 파라미터 비교 표를 보면, CLIP과 VAE는 동결이고 U-Net만 학습합니다.

왜 이런 설계일까요? U-Net에 학습 자원을 집중하기 위해서입니다.

오른쪽 하단 데이터 흐름을 따라가 보세요.

텍스트가 조건 벡터가 되고, 순수 노이즈가 깨끗한 잠재 벡터가 되고, 최종 이미지가 됩니다.

이 세 모듈의 분업 구조가 스테이블 디퓨전의 효율성과 품질을 동시에 달성하는 핵심 원리입니다.

이제 각 모듈의 내부 동작을 하나씩 깊이 들여다보겠습니다.

💬 강의 Q&A

0:00

0:49

🎓 강의 스크립트

선생님: 여러분, CLIP, U-Net, VAE 중에서 학습 시 파라미터가 업데이트되는 모듈은 무엇일까요?

학생: U-Net만 학습 대상이고, CLIP과 VAE는 동결 상태라고 하셨잖아요.

선생님: 맞아요. 그렇다면 왜 CLIP과 VAE는 동결할까요?

학생: 이미 충분히 잘 학습된 모델이라서, U-Net 학습에 자원을 집중하려는 거 아닌가요?

선생님: 정확합니다. CLIP은 4억 개의 이미지-텍스트 쌍으로 사전 학습되었고, VAE도 이미지 복원에 충분히 최적화되어 있어요.

학생: 그러면 전체 파라미터 대비 실제 학습하는 비율은 얼마나 되나요?

선생님: 전체 약 10억 6천만 중 U-Net의 8억 6천만, 약 80 퍼센트가 학습 대상입니다. 효율적이면서도 핵심에 집중하는 설계죠.