2What — 모델 서빙이란?
3- 학습이 끝난 ML 모델을 외부 시스템(앱, 웹, IoT)이 호출할 수 있도록 실시간 API로 배포하는 과정
4- MLOps 파이프라인의 마지막 1마일(Last Mile): 데이터 수집 → 전처리 → 학습 → 평가 → 서빙
5- 노트북(.ipynb) 안에서만 동작하는 모델은 비즈니스 관점에서 가치가 0에 수렴한다 (Sculley et al., 2015)
6Why — 왜 모델 서빙이 핵심인가?
7- 가치 실현의 병목: 구글 연구에 따르면 실제 ML 시스템에서 모델 코드는 전체의 5% 미만이고, 나머지는 배포·모니터링·데이터 파이프라인이다 (Sculley et al., 2015)
8- 실시간 의사결정: 추천 시스템(Netflix, Spotify)은 사용자 요청 후 수백 ms 이내에 결과를 반환해야 함
9- 확장성: 이미지 분류 API가 초당 1,000건의 요청을 처리하려면 단순 스크립트로는 불가능
10- 비유: 모델 학습 = 요리 레시피 개발, 모델 서빙 = 레스토랑 오픈. 레시피만 있고 레스토랑이 없으면 손님에게 음식을 줄 수 없다
11프로덕션 서빙 사례
12- 추천 시스템: 유저 ID → 모델 추론 → 개인화 상품 리스트 반환 (수십 ms 이내)
13- 이미지 분류: 사진 업로드 → CNN 추론 → 라벨·확률 JSON 응답
14- 챗봇/LLM: 사용자 메시지 → 토큰 단위 스트리밍 응답 (SSE/WebSocket)
15- 공통점: 모두 HTTP API 엔드포인트를 통해 모델 추론 결과를 외부에 노출
16How — FastAPI가 ML 서빙의 사실상 표준이 된 이유
17- 비동기(async/await): I/O 대기 중에도 다른 요청 처리 가능 → GPU 추론 대기 시간 활용
18- 자동 문서화: Swagger UI(/docs)가 자동 생성되어 프론트엔드·QA 팀과 즉시 소통 가능
19- Pydantic 검증: 입력 데이터를 타입·범위까지 자동 검증 → 잘못된 입력이 모델에 도달하기 전 차단
20- 성능: Starlette 기반으로 Node.js Express에 준하는 처리량, Flask 대비 2~3배 빠름 (Ramírez, 2018)
21- 한 줄 요약: FastAPI = 비동기 성능 + 자동 API 문서 + 입력 검증을 Python 생태계에서 한 번에 해결하는 프레임워크
22핵심 정리
23- 모델의 비즈니스 가치는 서빙 품질에 비례한다
24- 서빙 = 모델을 HTTP API로 감싸고, 확장 가능하고 안정적으로 운영하는 것
25- 이 레슨에서는 FastAPI를 사용해 학습된 모델을 실제 API로 배포하는 전 과정을 다룬다