이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 딥러닝(Deep Learning) — 인공 신경망의 세계 → 생성 모델 — 데이터를 만들어내는 AI → 확산 모델(Diffusion Models)
잠재 확산(latent diffusion), U-Net 디노이저(denoiser), 그리고 Stable Diffusion 아키텍처를 이해합니다.
오늘 우리가 만나볼 스테이블 디퓨전은 텍스트 한 줄로 이미지를 만들어내는 놀라운 시스템입니다.
이 시스템의 비밀은 세 개의 모듈이 정교하게 협력한다는 데 있습니다.
그림 상단을 보시면, 왼쪽부터 CLIP, U-Net, VAE 세 모듈이 나란히 배치되어 있습니다.
첫 번째 모듈인 CLIP 텍스트 인코더를 보세요.
사용자가 입력한 프롬프트를 77개 토큰, 768차원의 임베딩 벡터로 변환합니다.
CLIP은 1억 2천3백만 개의 파라미터를 가지고 있지만, 학습 시에는 동결 상태로 유지됩니다.
가운데 주황색 영역의 U-Net을 보세요. 이것이 핵심 엔진입니다.
U-Net은 잠재 공간에서 노이즈를 예측하고 제거하는 디노이저 역할을 합니다.
8억 6천만 개의 파라미터로 구성되며, 학습 대상이 되는 유일한 모듈이에요.
오른쪽 초록색 영역의 VAE 디코더를 보세요.
64 곱하기 64 곱하기 4 크기의 잠재 벡터를 512 곱하기 512 곱하기 3 RGB 이미지로 변환합니다.
이것이 바로 8배 업스케일링 과정입니다.
그림 아래쪽 U-Net 내부 구조를 보시면, 다운 블록과 업 블록 사이에 스킵 커넥션이 연결되어 있습니다.
이 스킵 커넥션 덕분에 세밀한 디테일 정보가 보존됩니다.
왼쪽 하단 파라미터 비교 표를 보면, CLIP과 VAE는 동결이고 U-Net만 학습합니다.
왜 이런 설계일까요? U-Net에 학습 자원을 집중하기 위해서입니다.
오른쪽 하단 데이터 흐름을 따라가 보세요.
텍스트가 조건 벡터가 되고, 순수 노이즈가 깨끗한 잠재 벡터가 되고, 최종 이미지가 됩니다.
이 세 모듈의 분업 구조가 스테이블 디퓨전의 효율성과 품질을 동시에 달성하는 핵심 원리입니다.
이제 각 모듈의 내부 동작을 하나씩 깊이 들여다보겠습니다.
선생님: 여러분, CLIP, U-Net, VAE 중에서 학습 시 파라미터가 업데이트되는 모듈은 무엇일까요?
학생: U-Net만 학습 대상이고, CLIP과 VAE는 동결 상태라고 하셨잖아요.
선생님: 맞아요. 그렇다면 왜 CLIP과 VAE는 동결할까요?
학생: 이미 충분히 잘 학습된 모델이라서, U-Net 학습에 자원을 집중하려는 거 아닌가요?
선생님: 정확합니다. CLIP은 4억 개의 이미지-텍스트 쌍으로 사전 학습되었고, VAE도 이미지 복원에 충분히 최적화되어 있어요.
학생: 그러면 전체 파라미터 대비 실제 학습하는 비율은 얼마나 되나요?
선생님: 전체 약 10억 6천만 중 U-Net의 8억 6천만, 약 80 퍼센트가 학습 대상입니다. 효율적이면서도 핵심에 집중하는 설계죠.