이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → MLOps & 실전 배포 — 모델을 세상에 내보내기 → 실험 관리 — 재현 가능한 ML 워크플로우 → 데이터 파이프라인
ETL/ELT, DVC, Feature Store, Great Expectations, 데이터 드리프트 감지, Airflow/Prefect 자동화 등 데이터 파이프라인 전체를 학습합니다.
오늘은 데이터 파이프라인이 무엇인지, 왜 필요한지 살펴보겠습니다.
그림 상단을 보시면 핵심 문장이 하나 있는데요.
"모델 품질은 데이터 품질을 넘지 못한다"는 말입니다.
삼바시반 연구팀이 2021년에 발표한 연구 결과예요.
모델 성능의 80%는 데이터 품질이 결정한다는 뜻입니다.
모델 아키텍처가 차지하는 비중은 고작 20%에 불과해요.
그렇다면 데이터 파이프라인이 정확히 뭘까요?
원시 데이터를 수집, 정제, 변환, 저장하는 자동화 워크플로우입니다.
그림 왼쪽을 보세요.
노트북만 쓸 때의 문제점들이 나열돼 있습니다.
첫 번째가 재현 불가능이에요.
셀 실행 순서에 따라 결과가 달라지거든요.
전역 변수 오염으로 숨은 버그가 생기기도 합니다.
100기가바이트 이상 데이터는 메모리 부족 오류가 납니다.
버전 관리가 안 돼 전처리 히스토리 추적도 어렵죠.
그림 오른쪽을 보시면 파이프라인의 장점 네 가지가 있어요.
재현성, 확장성, 자동화, 품질 관리입니다.
분산 처리로 데이터가 10배 늘어도 선형으로 확장됩니다.
24시간 스케줄링으로 사람 개입 없이 운영되고요.
그림 중간 부분을 보시면 ETL과 ELT 비교가 나옵니다.
ETL은 추출 후 변환을 거쳐 적재하는 전통적 방식이에요.
ELT는 추출 후 먼저 적재하고 나중에 변환하는 현대적 방식입니다.
원시 데이터를 레이크에 올려두고 필요할 때 변환하죠.
이제 그림 하단을 보세요.
파이프라인 전체 흐름이 추출, 변환, 적재로 나뉩니다.
추출 단계에서 에이피아이, 데이터베이스, 파일, 센서를 가져옵니다.
변환 단계에서 결측치 처리, 집계, 조인, 스키마 검증을 합니다.
적재 단계에서 웨어하우스, 레이크, 피처 스토어에 저장합니다.
팀 규모에 따라 파이프라인의 필요성도 달라지는데요.
1~2명이면 노트북으로 충분, 5명 이상이면 파이프라인이 필수예요.
50명 이상이면 플랫폼팀이 파이프라인 인프라를 전담합니다.
프로토타입은 노트북, 프로덕션은 파이프라인입니다.
이 전환 시점을 인식하는 것이 엔지니어링 성숙도의 지표예요.