프로덕션 운영 — 안정적인 ML 서비스 유지 → 모니터링 & CI/CD

모니터링과 CI/CD

ML 모델 모니터링과 CI/CD 파이프라인: 드리프트 감지, Prometheus/Grafana, 자동 재학습, GitHub Actions, A/B 테스트, Canary 배포를 학습합니다.

1 / 16

왜 ML 모니터링이 필요한가 — 배포 후가 진짜 시작

2What — ML 모니터링이란?

3- ML 모니터링: 배포된 모델의 입력 데이터, 예측 결과, 시스템 상태를 지속적으로 관찰하고 이상을 탐지하는 체계

4- 전통 소프트웨어 모니터링(서버 상태, 에러율)을 넘어 모델 품질까지 추적하는 확장된 관측 시스템

5- "모델은 코드와 달리 시간이 지나면 스스로 나빠진다" — 이것이 ML 모니터링이 특별한 이유

6Why — 왜 ML 모니터링이 필수인가?

71. 모델은 조용히 실패한다 (Silent Failure)

8 - 전통 SW: 버그 → 에러 로그, 크래시 → 즉시 인지 가능

9 - ML 모델: 성능이 서서히 저하되어도 HTTP 200 OK를 반환하며 정상처럼 동작

10 - 예: 추천 시스템이 클릭률 30% → 15%로 떨어져도 서버는 멀쩡함 (Sculley et al., 2015)

112. 세상은 변한다 — Stationarity 가정의 붕괴

12 - ML 모델은 "학습 데이터의 분포 = 운영 데이터의 분포"를 가정

13 - 현실: 사용자 행동 변화, 계절성, 경쟁사 출현, 팬데믹 등으로 분포가 끊임없이 이동

14 - 학습 시점의 P_{\text{train}}(X, Y)와 운영 시점의 P_{\text{serve}}(X, Y)가 달라지는 것은 시간문제

15 - "All models are wrong, but some become wronger over time" (Klaise et al., 2020)

163. 피드백 지연 (Delayed Ground Truth)

17 - 대출 심사 모델: 실제 부도 여부를 알려면 수개월~수년 대기

18 - 의료 진단 모델: 확진까지 수일~수주 소요

19 - Ground truth가 즉시 없으므로, 입력 분포와 예측 분포의 변화를 대리 지표로 감시해야 함

204. 비용의 비대칭성

21 - 모니터링 구축 비용: 엔지니어링 며칠

22 - 장애 미감지 비용: 매출 손실, 규제 벌금, 평판 하락 → 수백~수천배 차이

23 - 2020 Zillow 사례: 주택 가격 예측 모델 실패 → 5억 달러 이상 손실, 사업부 폐쇄

24How — ML 모니터링의 세 가지 관측 계층

25- 계층 1: 시스템 건강 (Infrastructure)

26 - 서버 CPU/GPU 사용률, 메모리, 디스크

27 - API 응답 시간(latency), 처리량(throughput), 에러율

28 - 이 계층만으로는 "모델이 잘 예측하고 있는가"를 알 수 없음

29- 계층 2: 데이터 품질 (Data Quality)

30 - 입력 피처의 스키마 변경, 결측값 비율, 분포 이동

31 - 예: 나이 피처에 음수가 들어오거나, 카테고리에 학습 때 없던 값 등장

32 - 모델 성능 하락의 선행 지표 역할 (Breck et al., 2019)

33- 계층 3: 모델 품질 (Model Quality)

34 - 예측값 분포 변화: 갑자기 한쪽 클래스만 예측하기 시작

35 - Ground truth 확보 후 실제 accuracy, F1, AUC 추적

36 - 비즈니스 KPI와의 상관관계: CTR, 전환율, NPS 등

37핵심 통찰: 모니터링 없는 ML = 계기판 없는 비행

38- 전통 SW는 "만들면 끝"에 가깝지만, ML은 "배포하면 시작"

39- Google의 ML 기술 부채 논문은 ML 시스템의 유지보수 비용이 전체의 5~25%가 아니라 대부분이라고 경고 (Sculley et al., 2015)

40- 모니터링은 선택이 아닌 생존 조건 — 모든 프로덕션 ML 시스템의 필수 구성요소

0:00

2:23

🎓 강의 스크립트

오늘은 ML 모니터링이 왜 필요한지 살펴보겠습니다.

배포 후가 진짜 시작이라는 의미, 함께 확인해 봅시다.

ML 모니터링은 배포된 모델의 입력과 예측을 지속 관찰하는 체계입니다.

단순 서버 상태를 넘어 모델 품질 자체를 추적합니다.

그림 상단 그래프를 보시면 시간에 따른 성능 변화가 나타납니다.

전통 소프트웨어는 시간이 지나도 성능이 유지됩니다.

반면 ML 모델은 코드가 그대로인데 성능이 서서히 떨어집니다.

이 격차 구간이 바로 조용한 실패, Silent Failure입니다.

서버는 정상 응답을 반환하며 겉으로는 문제없어 보이죠.

추천 시스템 클릭률이 절반으로 떨어져도 서버는 멀쩡합니다.

가운데 비교표를 보시면 두 시스템의 차이가 명확합니다.

왼쪽이 전통 소프트웨어, 오른쪽이 ML 시스템입니다.

전통 SW는 버그가 생기면 즉시 에러 로그로 인지합니다.

ML 시스템은 성능이 저하돼도 아무 경고도 뜨지 않습니다.

왼쪽엔 '만들면 끝', 오른쪽엔 '배포하면 시작'입니다.

학습 시점 분포와 운영 시점 분포가 달라지는 건 시간문제입니다.

이제 하단 세 박스를 보시면 실패의 세 원인이 나옵니다.

첫 번째는 데이터 분포 이동, 안정성 가정의 붕괴입니다.

사용자 행동 변화, 계절성, 팬데믹으로 분포가 끊임없이 이동합니다.

두 번째는 피드백 지연, 즉 실제 정답이 즉시 없다는 문제입니다.

대출 심사는 실제 부도 여부를 알기까지 수개월이 걸립니다.

그래서 입력 분포 변화를 대리 지표로 감시해야 합니다.

세 번째는 비용의 비대칭성입니다.

모니터링 구축은 며칠이지만 미감지 장애는 수백 배 손실로 이어집니다.

2020년 질로우 사례에서 주택 예측 실패로 5억 달러 손실이 났습니다.

구글 ML 기술 부채 논문도 유지보수 비용이 대부분이라 경고합니다.

모니터링은 시스템 건강, 데이터 품질, 모델 품질 세 계층으로 구성됩니다.

결국 모니터링 없는 ML은 계기판 없는 비행과 같습니다.

모니터링은 선택이 아닌 생존 조건임을 꼭 기억해 주세요.

이런 분들이 찾고 있어요

이 레슨과 관련된 학습 키워드

CS/AI 전공 대학생

MLOps 정리Docker 과제

비전공/입문자

MLOps란Docker 입문

취준생

MLOps 엔지니어 면접ML 배포 경험MLOps 포트폴리오

직장인

MLOps 실무ML 파이프라인 구축Docker 배포

대학원생/연구자

MLOps 논문reproducibility

AI 교육 플랫폼

AI 교육 플랫폼 추천AI 강의 사이트머신러닝 온라인 강의딥러닝 강의 추천

AI 독학/로드맵

AI 독학 방법머신러닝 공부 순서딥러닝 로드맵머신러닝 독학 로드맵

AI 취업/커리어

AI 취업 준비데이터 사이언티스트 강의ML 엔지니어 준비AI 면접 준비