이 레슨과 관련된 학습 키워드
연구의 기초 — 학문의 뿌리와 방법론 → 논문 읽기 & 연구 방법론 — 연구자로 성장하기 → 논문 읽기 & 연구 방법론 — 연구자로 성장하기 → 연구 실전
실험 설계는 연구의 신뢰도를 결정합니다.
아무리 좋은 아이디어도 실험이 허술하면 증명이 되지 않습니다.
왼쪽 빨간 박스를 보시면 나쁜 실험의 전형적인 특징 5가지가 나열되어 있습니다.
시드를 고정하지 않으면 실험할 때마다 결과가 달라집니다.
환경 기록이 없으면 6개월 뒤 같은 저자도 재현하지 못하게 됩니다.
하이퍼파라미터를 공개하지 않으면 모델은 블랙박스가 됩니다.
단 1회 실험은 그 결과가 우연인지 알 수 없습니다.
2016년부터 ML 연구에서 재현성 위기라는 말이 본격적으로 등장했습니다.
가운데 노란 박스를 보시면 NeurIPS 2019 조사의 충격적인 통계가 있습니다.
논문의 90%가 코드를 공개하지 않았고, 재현 성공률은 겨우 25%였습니다.
이것이 바로 과학적 신뢰의 근간이 흔들리고 있다는 신호입니다.
학계는 ICML과 NeurIPS에서 2020년부터 재현성 체크리스트를 의무화하기 시작했습니다.
오른쪽 초록 박스를 보시면 좋은 실험이 무엇인지 바로 알 수 있습니다.
시드를 명시하고, 환경을 기록하고, 5회 반복해서 평균과 표준편차를 보고합니다.
데이터셋의 SHA-256 해시를 기록하면 어떤 데이터를 썼는지 정확히 특정할 수 있습니다.
통제란 한 번에 하나의 변수만 바꾸는 것을 말합니다.
두 가지를 동시에 바꾸면 어떤 변수가 결과에 영향을 줬는지 알 수 없게 됩니다.
이것이 바로 교란 변수 문제입니다.
하단 파란 박스를 보시면 핵심 원칙이 한 문장으로 정리되어 있습니다.
재현성은 과학이 누적되는 방식입니다. 내 결과를 다른 연구자가 검증할 수 있어야 합니다.
선생님: 왜 한 번에 하나의 변수만 바꿔야 할까요?
학생: 두 개를 동시에 바꾸면 어느 것이 결과에 영향을 줬는지 모르니까요?
선생님: 정확해요. 그게 바로 교란 변수 문제입니다.
학생: 랜덤 시드를 왜 여러 개 쓰나요?
선생님: 한 시드에서만 좋은 결과가 나올 수 있어서 일반화가 안 돼요.
학생: 몇 개의 시드가 적당한가요?
선생님: 최소 3개, 이상적으로는 5~10개를 추천합니다.