실험 관리 — 재현 가능한 ML 워크플로우 → 데이터 파이프라인

데이터 파이프라인

ETL/ELT, DVC, Feature Store, Great Expectations, 데이터 드리프트 감지, Airflow/Prefect 자동화 등 데이터 파이프라인 전체를 학습합니다.

1 / 21

데이터 파이프라인이란 무엇이고 왜 필요한가

2What — 데이터 파이프라인의 정의

3- 데이터 파이프라인: 원시 데이터를 수집 → 정제 → 변환 → 저장하는 자동화된 워크플로우

4- 각 단계가 이전 단계의 출력을 입력으로 받아 순차·병렬 처리

5- 핵심 원칙: "모델 품질은 데이터 품질을 넘지 못한다" (Sambasivan et al., 2021)

6Why — 파이프라인이 필요한 이유

7- 재현성(Reproducibility): 동일 입력 → 동일 출력 보장. Jupyter Notebook 수동 실행은 셀 순서 의존성으로 재현 불가

8- 확장성(Scalability): 데이터 10배 증가 시 노트북 커널 OOM 발생 → 파이프라인은 분산 처리로 선형 확장

9- 자동화: 스케줄링·모니터링·알림을 통해 사람 개입 없이 24/7 운영

10- 품질 관리: 스키마 검증, 이상치 탐지, 데이터 드리프트 감지를 단계별로 삽입 가능

11Notebook-only 작업의 구체적 문제점

12- 셀 실행 순서가 코드에 기록되지 않아 동료가 다른 결과를 얻음

13- 전역 변수 오염: 위쪽 셀 삭제 후에도 메모리에 남아 숨은 버그 유발

14- 100GB+ 데이터셋 처리 시 단일 머신 한계 → 파이프라인 도구(Airflow, Prefect)는 워커 분산 지원

15- 버전 관리 불가: 어떤 전처리를 적용했는지 히스토리 추적 어려움

16How — 실제 사용 사례 3가지

17- 추천 시스템의 실시간 피처 파이프라인: 사용자 클릭 이벤트 → Kafka 스트림 → 피처 스토어(Feast) → 모델 서빙. 지연 시간 수백 ms 이내 (Zhao et al., 2019)

18- 자율주행의 센서 데이터 처리: LiDAR·카메라·GPS 동기화 → 포인트 클라우드 정합 → 라벨링 큐 적재. 초당 수 GB 처리 필요

19- LLM 사전학습용 웹 크롤링 파이프라인: CommonCrawl 수집 → 중복 제거(MinHash) → 유해 콘텐츠 필터링 → 토크나이징. GPT-3 학습 데이터 570GB 처리 (Brown et al., 2020)

20핵심 요약

21- 파이프라인 = 재현 가능 + 확장 가능 + 자동화된 데이터 처리 시스템

22- ML 프로젝트 실패 원인의 대다수는 모델이 아닌 데이터 문제 (Sculley et al., 2015)

23- 프로토타입은 노트북, 프로덕션은 파이프라인 — 이 전환 시점을 인식하는 것이 엔지니어링 성숙도의 지표

0:00

2:33

🎓 강의 스크립트

오늘은 데이터 파이프라인이 무엇인지, 왜 필요한지 살펴보겠습니다.

그림 상단을 보시면 핵심 문장이 하나 있는데요.

"모델 품질은 데이터 품질을 넘지 못한다"는 말입니다.

삼바시반 연구팀이 2021년에 발표한 연구 결과예요.

모델 성능의 80%는 데이터 품질이 결정한다는 뜻입니다.

모델 아키텍처가 차지하는 비중은 고작 20%에 불과해요.

그렇다면 데이터 파이프라인이 정확히 뭘까요?

원시 데이터를 수집, 정제, 변환, 저장하는 자동화 워크플로우입니다.

그림 왼쪽을 보세요.

노트북만 쓸 때의 문제점들이 나열돼 있습니다.

첫 번째가 재현 불가능이에요.

셀 실행 순서에 따라 결과가 달라지거든요.

전역 변수 오염으로 숨은 버그가 생기기도 합니다.

100기가바이트 이상 데이터는 메모리 부족 오류가 납니다.

버전 관리가 안 돼 전처리 히스토리 추적도 어렵죠.

그림 오른쪽을 보시면 파이프라인의 장점 네 가지가 있어요.

재현성, 확장성, 자동화, 품질 관리입니다.

분산 처리로 데이터가 10배 늘어도 선형으로 확장됩니다.

24시간 스케줄링으로 사람 개입 없이 운영되고요.

그림 중간 부분을 보시면 ETL과 ELT 비교가 나옵니다.

ETL은 추출 후 변환을 거쳐 적재하는 전통적 방식이에요.

ELT는 추출 후 먼저 적재하고 나중에 변환하는 현대적 방식입니다.

원시 데이터를 레이크에 올려두고 필요할 때 변환하죠.

이제 그림 하단을 보세요.

파이프라인 전체 흐름이 추출, 변환, 적재로 나뉩니다.

추출 단계에서 에이피아이, 데이터베이스, 파일, 센서를 가져옵니다.

변환 단계에서 결측치 처리, 집계, 조인, 스키마 검증을 합니다.

적재 단계에서 웨어하우스, 레이크, 피처 스토어에 저장합니다.

팀 규모에 따라 파이프라인의 필요성도 달라지는데요.

1~2명이면 노트북으로 충분, 5명 이상이면 파이프라인이 필수예요.

50명 이상이면 플랫폼팀이 파이프라인 인프라를 전담합니다.

프로토타입은 노트북, 프로덕션은 파이프라인입니다.

이 전환 시점을 인식하는 것이 엔지니어링 성숙도의 지표예요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

MLOps 정리Docker 과제

비전공/입문자

MLOps란Docker 입문

취준생

MLOps 엔지니어 면접ML 배포 경험MLOps 포트폴리오

직장인

MLOps 실무ML 파이프라인 구축Docker 배포

대학원생/연구자

MLOps 논문reproducibility

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비