컴퓨터 과학 & 프로그래밍 — 문제 해결의 도구 → Python 프로그래밍 — 첫 코드에서 실전까지 → Python 프로그래밍 — 첫 코드에서 실전까지 → 중급

이터레이터와 제너레이터 — 게으른 계산의 힘

yield, 이터레이터 프로토콜, 제너레이터 함수/표현식, itertools, 파이프라인 패턴, send/throw, contextlib, async generator

1 / 21

왜 이터레이터와 제너레이터인가

2What — 이터레이터와 제너레이터란?

3- 이터레이터(Iterator): __iter__()와 __next__() 두 메서드를 구현한 객체로, 데이터를 한 번에 하나씩 꺼내는 프로토콜

4- 제너레이터(Generator): yield 키워드로 이터레이터를 간결하게 만드는 함수

5- 핵심 원리는 지연 평가(lazy evaluation) — 값을 미리 계산해 메모리에 올리지 않고, 요청받을 때마다 하나씩 생산한다

6Why — 왜 지연 평가가 현대 Python의 핵심인가

7- 메모리 폭발 방지: 수십 GB 로그 파일을 리스트로 읽으면 RAM이 터진다. 이터레이터로 한 줄씩 처리하면 메모리 사용량이 상수(O(1))로 유지된다

8- 무한 수열 표현: 피보나치 수열, 센서 스트림처럼 끝이 없는 데이터를 리스트에 담는 것은 불가능하다. 제너레이터는 무한 시퀀스를 자연스럽게 표현한다 (Beazley, 2009)

9- 딥러닝 데이터 로더: PyTorch의 DataLoader는 수백만 장 이미지를 배치 단위로 yield하는 이터레이터 — 전체 데이터셋을 메모리에 올리지 않고 학습한다 (Paszke et al., 2019)

10- 파이프라인 합성: UNIX 파이프처럼 이터레이터를 체이닝하면 데이터가 단계별로 흘러간다 — 중간 리스트 없이 변환·필터·집계를 한 패스로 처리

11핵심 사실 — for 루프의 비밀

12- Python의 for 루프는 내부적으로 이터레이터 프로토콜을 사용한다:

13 - 1) 객체에 iter()를 호출해 이터레이터를 얻고

14 - 2) next()를 반복 호출하며

15 - 3) StopIteration 예외가 발생하면 루프를 종료한다

16- 즉, for x in obj는 사실상 이터레이터 프로토콜의 문법적 설탕(syntactic sugar)이다

17Why — range(10억)이 정수 하나만큼의 메모리를 쓰는 이유

18- range(1000000000)은 10억 개의 정수를 메모리에 만들지 않는다

19- 내부적으로 (start, stop, step) 세 값만 저장하고, 요청 시 산술 계산으로 값을 생성한다

20- Python 2의 range()는 리스트를 반환해 메모리를 낭비했고, Python 3에서 지연 평가 객체로 재설계되었다 (Van Rossum, 2006)

21- 한 문장 정리: range는 숫자를 저장하지 않고 계산하는 레시피를 저장한다

22설계 철학 — '모든 것은 객체'에서 이터레이터 프로토콜로

23- Python은 "모든 것은 객체" 철학을 따른다 — 정수, 함수, 모듈까지 전부 객체

24- 이 철학의 자연스러운 확장: 반복 가능성도 객체의 프로토콜로 정의한다

25- __iter__와 __next__라는 매직 메서드만 구현하면 어떤 객체든 for 루프에 넣을 수 있다

26- 이것이 바로 이터레이터 프로토콜 — 상속이 아닌 프로토콜 기반 설계(덕 타이핑)의 대표적 사례

27- 리스트, 딕셔너리, 파일, range, zip, enumerate 모두 이 프로토콜을 따른다

28비유 — 책 전체 복사 vs 한 페이지씩 넘기기

29- 리스트 = 도서관에서 책 전체를 복사해 가져오기 (메모리에 전부 적재)

30- 이터레이터 = 도서관에 앉아서 한 페이지씩 넘기며 읽기 (필요한 순간에만 접근)

31- 100만 페이지짜리 백과사전이라면? 복사는 불가능하지만, 한 페이지씩 읽기는 언제든 가능하다

32실전 사례 요약

33- 로그 파싱: 50GB 서버 로그를 open()으로 줄 단위 이터레이션 → 메모리 수 KB로 처리

34- 무한 스트림: IoT 센서 데이터를 제너레이터로 실시간 소비

35- ML 파이프라인: tf.data.Dataset, PyTorch DataLoader 모두 이터레이터 패턴 기반 (Abadi et al., 2016)

36- 대용량 CSV: pandas read\_csv(chunksize=1000)도 내부적으로 이터레이터 반환

0:00

2:06

🎓 강의 스크립트

오늘은 이터레이터와 제너레이터를 왜 배워야 하는지 살펴보겠습니다.

이터레이터는 두 가지 메서드를 구현한 객체입니다.

__iter__()와 __next__()가 바로 그 메서드입니다.

이 두 메서드로 데이터를 한 번에 하나씩 꺼낼 수 있습니다.

제너레이터는 yield 키워드로 이터레이터를 만드는 함수입니다.

핵심 원리는 바로 지연 평가입니다.

값을 미리 올리지 않고 요청받을 때마다 하나씩 생산합니다.

그림 왼쪽을 보시면 리스트 방식이 나와 있습니다.

10억 개 정수를 한꺼번에 만들면 RAM이 7.6기가나 필요합니다.

메모리 복잡도가 오 엔으로, 50기가 CSV는 메모리 오류가 납니다.

오른쪽 이터레이터 방식을 보시면 완전히 다릅니다.

range 객체는 시작, 끝, 간격 세 값만 저장합니다.

그래서 고작 48바이트로 10억 개를 표현할 수 있습니다.

메모리 복잡도가 오 원, 즉 상수로 유지됩니다.

가운데 피보나치 제너레이터 코드를 보세요.

while True 무한 루프 안에서 yield로 값을 넘깁니다.

yield 지점에서 실행이 일시 정지되고 값이 전달됩니다.

next() 호출마다 딱 하나씩만 계산하는 구조입니다.

for 루프도 내부적으로 이터레이터 프로토콜을 씁니다.

iter()와 next()를 반복 호출하다 종료 신호가 오면 멈춥니다.

하단을 보시면 대용량 CSV 읽기 비교가 있습니다.

왼쪽 Eager 방식은 50기가를 통째로 올려 메모리 오류가 납니다.

오른쪽 Lazy 방식은 천 행씩 이터레이터로 반환해 처리합니다.

맨 아래 파이프라인 비교도 눈여겨보세요.

중간 리스트로 저장하면 메모리를 세 배나 써야 합니다.

이터레이터 체이닝은 오 원 메모리로 한 패스에 처리합니다.

리스트는 책 전체를 복사해 오는 방식이고,

이터레이터는 도서관에서 한 페이지씩 읽는 방식입니다.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

파이썬 과제파이썬 기말고사OOP 정리파이썬 클래스

비전공/입문자

파이썬 독학파이썬 입문파이썬 기초 강의코딩 시작

취준생

파이썬 코딩테스트파이썬 면접

직장인

파이썬 업무 자동화파이썬 데이터 분석

대학원생/연구자

파이썬 연구용파이썬 실험 코드

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비