이 레슨과 관련된 학습 키워드
인공지능(AI) — 기계가 생각하는 법 → 연구를 위한 통계학 → 통계 기본 — 논문을 읽는 추론통계 → 가설검정·검정력·정직한 보고
"significant(p<0.05)"가 무엇이고 무엇이 아닌지 — 귀무·대립가설·검정통계량·귀무분포·기각역, p값의 4대 오해, 1·2종 오류.
오늘은 p값의 논리를 왜 제대로 알아야 하는지 살펴보겠습니다.
화면 상단을 보시면 이 문장이 얼마나 흔한지 나옵니다.
논문 결론, 뉴스 기사, 신약 임상시험 승인 서류까지 어디에나 등장하죠.
회사의 에이비 테스트 보고서에서도 마찬가지입니다.
피 값이 영점영오보다 작아서 유의하다는 한 문장으로 판단이 갈립니다.
효과가 있다 없다, 신약을 승인한다 기각한다까지 이 숫자 하나가 결정하죠.
그런데 정작 그 의미를 정확히 아는 사람은 드뭅니다.
왼쪽 위 박스를 보세요, 왜 이런 오해가 생기는지 나옵니다.
할러와 크라우스의 2002년 조사가 있습니다.
통계학 학생은 물론 교수와 연구자조차 과반이 정의를 틀렸습니다.
가장 흔한 오해를 보시면, 피 값이 영점영삼이면 귀무가설이 참일 확률이 3퍼센트다라는 해석입니다.
이건 완전히 틀린 말입니다.
가운데 표를 보시면 두 문장이 나란히 비교되어 있습니다.
왼쪽은 틀린 정의, 오른쪽은 정확한 정의입니다.
피 값은 가설이 참일 확률이 아니라, 가설이 참이라고 가정했을 때 지금 데이터가 나올 확률입니다.
조건의 방향이 정반대라는 게 핵심이죠.
비유를 보시면 이해가 쉽습니다.
비가 오면 땅이 젖는다와 땅이 젖었으면 비가 왔다는 다른 말입니다.
피 값은 앞 방향인데 사람들은 뒤 방향으로 읽는 거예요.
가운데 아래로 넘어가면 재현위기 이야기가 나옵니다.
2010년대 심리학계는 재현위기를 겪었습니다.
오픈 사이언스 컬래버레이션이 2015년에 유명 논문 100편을 다시 실험했어요.
원래 유의미했던 연구 중 약 3분의 1에서 절반만 다시 유의미하게 재현됐습니다.
왼쪽 박스에 원인이 나오는데, 피 해킹과 출판 편향입니다.
피 값이 영점영오보다 작을 때까지 반복 분석하는 게 피 해킹이고요.
유의한 결과만 발표하는 게 출판 편향입니다.
결국 유의함이 곧 참인 발견이라는 착각이 학문 전체의 신뢰를 흔든 거죠.
맨 아래 박스를 보시면 이 레슨의 핵심 구분이 나옵니다.
통계적으로 유의함과 실제로 참임은 다르다는 겁니다.
유의함은 우연만으로는 설명하기 어렵다는 신호일 뿐, 효과가 크다는 보장이 아닙니다.
이 레슨을 마치면 세 가지를 할 수 있어야 합니다.
피 값을 조건부 확률로 정확히 말하기, 무엇을 주장할 수 있는지 구분하기, 뉴스 문장을 비판적으로 읽기입니다.
통계는 자동 계산기가 아니라 불확실성을 다루는 논리이고, 그 출발점이 바로 피 값입니다.