이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → MLOps & 실전 배포 — 모델을 세상에 내보내기 → 실험 관리 — 재현 가능한 ML 워크플로우 → 데이터 파이프라인
ETL/ELT, DVC, Feature Store, Great Expectations, 데이터 드리프트 감지, Airflow/Prefect 자동화 등 데이터 파이프라인 전체를 학습합니다.
안녕하세요, 오늘은 데이터 파이프라인이 왜 필요한지 알아볼게요.
엠엘 프로젝트를 시작하면 모델부터 만들고 싶죠.
그런데 실제 현장은 조금 다릅니다.
슬라이드 왼쪽 박스를 보세요.
구글 내부 연구 결과가 담겨 있는데요.
전체 엠엘 시스템 코드 중 모델 코드는 단 5퍼센트입니다.
나머지 95퍼센트는 데이터와 인프라 코드예요.
2015년 스컬리 연구팀의 구글 논문에서 나온 수치입니다.
충격적이죠?
모델은 사실 빙산의 일각이에요.
왼쪽 아래 막대 그래프도 보시면요.
엠엘 엔지니어 업무 시간의 80퍼센트가 데이터 준비입니다.
2022년 캐글 서베이에서 확인된 수치예요.
모델 튜닝보다 데이터 정리에 훨씬 더 많은 시간을 써요.
이게 현실이에요.
이번엔 오른쪽 박스를 보세요.
지아이지오, 가비지 인 가비지 아웃이라는 말이 있습니다.
쓰레기를 넣으면 쓰레기가 나온다는 뜻이죠.
아무리 좋은 모델도 데이터가 나쁘면 소용없어요.
이 원칙이 데이터 파이프라인의 출발점입니다.
그래서 이티엘과 이엘티 개념이 등장했어요.
데이터를 수집하고, 변환하고, 적재하는 과정이에요.
다음 슬라이드에서 더 자세히 살펴볼게요.
선생님: 여기서 질문이 하나 들어왔네요.
학생: 선생님, 지아이지오가 실제로 어떤 상황을 말하는 건가요?
선생님: 좋은 질문이에요! 입력 데이터 자체가 잘못됐을 때를 말해요.
선생님: 예를 들어, 나이 컬럼에 음수가 들어있거나 레이블이 뒤섞인 경우예요.
선생님: 그런 데이터로 학습하면 모델은 엉뚱한 패턴을 배우게 돼요.
선생님: 마치 잘못된 답지로 공부한 학생이 시험을 망치는 것과 같아요.
선생님: 아무리 최신 모델을 써도 데이터가 나쁘면 성능이 안 나와요.
선생님: 그래서 데이터를 정제하는 파이프라인이 모델보다 먼저 필요한 거예요.