데이터 병렬 학습(DDP) — 여러 GPU로 빠르게

all-reduce 그래디언트 동기화를 사용한 다중 GPU 훈련을 위해 DistributedDataParallel을 구현합니다.

1 / 17

왜 분산 학습이 필요한가

현대 AI 모델은 단일 GPU로 학습하기에 너무 큽니다:

모델 크기와 GPU 메모리 요구량:

- ResNet-50 (25M): 파라미터 ~100MB → 학습 ~4GB → GPU 1개 충분

- GPT-2 (1.5B): 파라미터 6GB → 학습 ~48GB → A100 1개 빠듯

- LLaMA-7B: 파라미터 28GB → 학습 ~224GB → A100 4~8개 필요

- GPT-4급 (1.8T): 파라미터 ~7TB → 학습 ~56TB → 수천 개 GPU

학습 메모리 = 파라미터 × 8~20배:

- 파라미터 자체 (4 bytes × N)

- 그래디언트 저장 (4 bytes × N)

- Adam 옵티마이저 상태: m, v (8 bytes × N)

- 활성화 값 (배치 크기에 비례, 가변적)

분산 학습의 두 가지 전략:

1. Data Parallelism: 같은 모델을 여러 GPU에 복제하고 데이터를 나눔

2. Model Parallelism: 모델 자체를 여러 GPU에 분할

이번 레슨에서는 Data Parallelism, 특히 DDP를 집중적으로 배웁니다.

왜 중요한가? GPT-3는 175B 파라미터로 단일 GPU에서 학습하면 수백 년이 걸립니다. 실제로 대규모 모델은 수천 개의 GPU를 동시에 사용하지 않으면 현실적 시간 내에 학습이 불가능합니다. 분산 학습은 이 계산량을 여러 GPU에 나누어 선형에 가까운 속도 향상을 달성합니다. 이것이 현대 AI가 존재할 수 있는 기술적 기반이며, 단일 GPU 최적화만으로는 절대 도달할 수 없는 규모의 모델을 가능하게 합니다.

0:00

1:43

🎓 강의 스크립트

안녕하세요, 오늘은 분산 학습이 왜 필요한지 알아보겠습니다.

화면 왼쪽 위를 보시면 레즈넷 50 모델이 보입니다.

이 모델은 2천 5백만 개 파라미터로, 지피유 하나에 충분히 올라갑니다.

그런데 옆에 있는 지피티 투를 보세요.

파라미터가 15억 개이고, 학습 시 48기가바이트가 필요합니다.

라마 세븐 비 모델은 더 심각합니다.

파라미터만 28기가바이트이고, 학습에 224기가가 필요하죠.

A100 80기가짜리가 4장에서 8장 필요합니다.

맨 오른쪽 지피티 포급 모델은 수천 개 지피유가 필수입니다.

그러면 왜 학습 메모리가 파라미터의 8배에서 20배나 될까요?

아래쪽 분석을 보시면 됩니다.

FP16 파라미터 2N, 그래디언트 2N, 아담 상태 8N이 핵심입니다.

특히 아담 옵티마이저의 m과 v 상태가 각각 FP32로 저장되어 8N을 차지합니다.

활성화 메모리까지 합치면 12N에서 20N 바이트가 됩니다.

가운데 파란 강조 박스를 보세요.

7B 모델이면 최소 336기가바이트입니다.

A100 80기가 한 장으로는 절대 불가능하죠.

그래서 여러 지피유에 분산하는 것이 유일한 해결책입니다.

데이터 병렬, 모델 병렬, 파이프라인 병렬 같은 전략이 있습니다.

오늘 레슨에서는 가장 많이 사용되는 데이터 병렬, 특히 디디피를 집중적으로 다룹니다.

다음 슬라이드에서 데이터 병렬의 핵심 아이디어를 시각적으로 확인해 보겠습니다.

💬 강의 Q&A

0:00

0:39

🎓 강의 스크립트

선생님: 여기서 학생분들이 자주 궁금해하는 게 있어요.

학생: 단일 지피유로 큰 모델을 학습할 수 없는 근본적인 이유가 뭔가요?

선생님: 좋은 질문이에요! 학습 메모리가 파라미터의 8배에서 20배까지 필요하기 때문이에요.

선생님: 파라미터 자체, 그래디언트, 아담의 m과 v 상태, 활성화까지 합치면 지피유 메모리를 훨씬 초과하죠.

학생: 그러면 추론은 괜찮은데 학습만 문제인 건가요?

선생님: 맞아요! 추론은 파라미터만 있으면 되지만, 학습은 그래디언트와 옵티마이저 상태가 추가로 필요해서 메모리가 크게 늘어나요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

딥러닝 기말고사딥러닝 중간고사인공지능 전공 정리딥러닝 과제신경망 시험 대비

비전공/입문자

딥러닝 쉽게 설명딥러닝이란AI 기초 공부딥러닝 독학딥러닝 입문 추천

취준생

딥러닝 면접 질문AI 엔지니어 준비딥러닝 포트폴리오

직장인

딥러닝 실무 적용AI 업스킬링직장인 딥러닝 강의

대학원생/연구자

딥러닝 최신 동향neural network 서베이

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비

데이터 병렬 학습(DDP) — 여러 GPU로 빠르게

all-reduce 그래디언트 동기화를 사용한 다중 GPU 훈련을 위해 DistributedDataParallel을 구현합니다.

1 / 17

왜 분산 학습이 필요한가

현대 AI 모델은 단일 GPU로 학습하기에 너무 큽니다:

모델 크기와 GPU 메모리 요구량:

- ResNet-50 (25M): 파라미터 ~100MB → 학습 ~4GB → GPU 1개 충분

- GPT-2 (1.5B): 파라미터 6GB → 학습 ~48GB → A100 1개 빠듯

- LLaMA-7B: 파라미터 28GB → 학습 ~224GB → A100 4~8개 필요

- GPT-4급 (1.8T): 파라미터 ~7TB → 학습 ~56TB → 수천 개 GPU

학습 메모리 = 파라미터 × 8~20배:

- 파라미터 자체 (4 bytes × N)

- 그래디언트 저장 (4 bytes × N)

- Adam 옵티마이저 상태: m, v (8 bytes × N)

- 활성화 값 (배치 크기에 비례, 가변적)

분산 학습의 두 가지 전략:

1. Data Parallelism: 같은 모델을 여러 GPU에 복제하고 데이터를 나눔

2. Model Parallelism: 모델 자체를 여러 GPU에 분할

이번 레슨에서는 Data Parallelism, 특히 DDP를 집중적으로 배웁니다.

0:00

1:43

🎓 강의 스크립트

안녕하세요, 오늘은 분산 학습이 왜 필요한지 알아보겠습니다.

화면 왼쪽 위를 보시면 레즈넷 50 모델이 보입니다.

이 모델은 2천 5백만 개 파라미터로, 지피유 하나에 충분히 올라갑니다.

그런데 옆에 있는 지피티 투를 보세요.

파라미터가 15억 개이고, 학습 시 48기가바이트가 필요합니다.

라마 세븐 비 모델은 더 심각합니다.

파라미터만 28기가바이트이고, 학습에 224기가가 필요하죠.

A100 80기가짜리가 4장에서 8장 필요합니다.

맨 오른쪽 지피티 포급 모델은 수천 개 지피유가 필수입니다.

그러면 왜 학습 메모리가 파라미터의 8배에서 20배나 될까요?

아래쪽 분석을 보시면 됩니다.

FP16 파라미터 2N, 그래디언트 2N, 아담 상태 8N이 핵심입니다.

특히 아담 옵티마이저의 m과 v 상태가 각각 FP32로 저장되어 8N을 차지합니다.

활성화 메모리까지 합치면 12N에서 20N 바이트가 됩니다.

가운데 파란 강조 박스를 보세요.

7B 모델이면 최소 336기가바이트입니다.

A100 80기가 한 장으로는 절대 불가능하죠.

그래서 여러 지피유에 분산하는 것이 유일한 해결책입니다.

데이터 병렬, 모델 병렬, 파이프라인 병렬 같은 전략이 있습니다.

오늘 레슨에서는 가장 많이 사용되는 데이터 병렬, 특히 디디피를 집중적으로 다룹니다.

다음 슬라이드에서 데이터 병렬의 핵심 아이디어를 시각적으로 확인해 보겠습니다.

💬 강의 Q&A

0:00

0:39

🎓 강의 스크립트

선생님: 여기서 학생분들이 자주 궁금해하는 게 있어요.

학생: 단일 지피유로 큰 모델을 학습할 수 없는 근본적인 이유가 뭔가요?

선생님: 좋은 질문이에요! 학습 메모리가 파라미터의 8배에서 20배까지 필요하기 때문이에요.

선생님: 파라미터 자체, 그래디언트, 아담의 m과 v 상태, 활성화까지 합치면 지피유 메모리를 훨씬 초과하죠.

학생: 그러면 추론은 괜찮은데 학습만 문제인 건가요?

선생님: 맞아요! 추론은 파라미터만 있으면 되지만, 학습은 그래디언트와 옵티마이저 상태가 추가로 필요해서 메모리가 크게 늘어나요.