이 레슨과 관련된 학습 키워드
연구의 기초 — 학문의 뿌리와 방법론 → 대학원생이 알았으면 좋았을 것들 → 진학 결심부터 졸업까지 → 연구의 첫걸음
대학원 연구에서 가장 흔한 악몽이 뭔지 아세요?
3개월 전에 좋았던 결과를 다시 만들어낼 수 없는 거예요.
논문 리비전에서 리뷰어가 실험을 다시 보여달라고 할 때 그 공포감은 대단해요.
그때 학습률이 얼마였는지, 코드가 어떤 버전이었는지 아무도 몰라요.
그림 왼쪽을 보세요. 관리 없이 연구하면 이런 상황이 벌어져요.
코드 파일 이름이 train_v2_final_REAL이라니, 웃기면서도 슬프죠.
하이퍼파라미터는 노트북 어딘가에 적어놨는데 어디인지 모르겠어요.
데이터 전처리 CSV 파일은 누가 삭제해서 원본을 복구할 수 없어요.
결과를 스크린샷으로만 남겨놨는데 그 스크린샷마저 분실한 상황이에요.
3개월 뒤 결과는 당연히 재현 불가능하고 논문 리비전은 실패해요.
이제 오른쪽을 보세요. 체계적 관리가 적용된 연구실이에요.
코드는 깃 커밋 해시로 추적하고 브랜치명까지 기록해요.
하이퍼파라미터는 config.yaml에 자동 저장되어 한 눈에 볼 수 있어요.
데이터셋은 DVC로 버전 관리하고 전처리 코드도 깃에 넣어요.
결과는 W&B 대시보드에 자동으로 기록되어 수치가 정확해요.
3개월 뒤에 run-42 불러오면 1분 만에 재현이 가능해요.
Nature 2016년 조사에서 연구자 70%가 다른 사람의 실험 재현에 실패했어요.
이건 특별히 나쁜 연구실 이야기가 아니라 대부분의 연구실 현실이에요.
재현율을 보면 관리 없는 곳은 약 20%인데 체계적 관리를 하면 95%까지 올라가요.
디버깅 시간도 2~3주에서 1~2시간으로 줄어들어요.
오늘 이 레슨에서는 가설부터 결과 문서화까지 전체 실험 관리 체계를 배울 거예요.
이건 연구 능력이 아니라 연구 습관의 문제예요. 습관을 바꾸면 결과가 달라져요.
선생님: 대학원생이 실험 관리를 안 하면 어떤 일이 벌어질까요?
학생: 결과를 재현할 수 없어서 논문 제출이 계속 늦어질 것 같아요.
선생님: 맞아요. 실제로 리비전 때 실험을 처음부터 다시 돌리는 학생이 정말 많아요.
학생: 근데 바쁘면 기록을 빼먹게 되지 않나요?
선생님: 그래서 자동 로깅 도구가 필수예요. 사람이 직접 기록하면 반드시 빠져요.
학생: W&B 같은 도구를 쓰면 코드 두 줄만 추가하면 되는 건가요?
선생님: 네, wandb.init과 wandb.log만 추가하면 하이퍼파라미터부터 메트릭까지 전부 자동 기록돼요.