P값에 대한 오해와 이해

 P값에 대한 가장 큰 오해는 검정하는 가설(귀무가설)이 참일 확률이라고 생각하는 것이다. 예를 들어 귀무가설에 대한 검정결과 P값이 0.01이 나오면 귀무가설이 참일 확률이 1%이고(반대로 대립가설이 맞을 확률은 99%) 만일 P=0.40 이면 귀무가설이 참일 확률이 40%라고 생각하는 것이다.

 

  P값은 귀무가설이 옳다고 가정한다.-가설의 확률이 아니고 귀무가설의 확률과도 거리가 멀다. P값은 단지 우리가 관찰한 데이터가 귀무가설이 맞고 사용된 통계적 모델에 대한 모든 가정이 옳다고 할 때 예측되는 패턴에 부합되는 정도만을 제시한다. 따라서 P=0.01은 우리가 관찰한 데이터가 통계적 모델(귀무가설이 옳다는 것 포함)이 예측하는 것과 가깝지 않다는 것만을 의미한다(그래서 귀무가설을 기각하고 대립가설을 받아들임). 반대로 P=0.40이라면 데이터가 모델이 예측하는 바와 부합한다는 것을 의미한다(그래서 귀무가설을 기각하지 못함).

  좀 더 상세히 설명하면 데이터와 모델을 통해 예측한 값 사이의 차이는 통계량(예를 들면 t, 카이제곱 값)으로 측정한다. P값은 만일 모든 모델과 관련된 가정(귀무가설을 포함하여)이 옳다고 할 때 선택된 통계량이 관찰된 값보다 같거나 더 큰 값을 가질 확률이다. 논리적으로 보면 P값은 테스트하고자 하는 가설(귀무가설)뿐 아니라 데이터가 어떻게 생성되었는지에 대한 모든 가정을 테스트한다. 더 나아가 이러한 가정들은 전통적으로 제시하고 있는 모델이나 확률분포에 대한 가정 이상을 포함한다. 예를 들면 분석 수행과정에서 중간 분석 결과는 최종 분석 결과 선택하는데 사용하지 않았다는 가정(즉 최종적으로 제시된 결과에 대해서만 테스트를 했다는 가정)까지도 포함한다.

  P값이 더 작다는 것은 (모든 가정이 옳다고 가정하면) 관찰한 데이터가 더 이례적이라는 것을 의미한다(그래서 귀무가설을 기각). 하지만 작은 P값이 통계적 모형에 대한 가정이 옳다는 것을 의미하지는 않는다. 예를 들어 P값이 아주 작은 경우 귀무가설이 틀렸기 때문에 작을 수도 있지만 연구 프로토콜을 위반했기 때문에 작을 수도 있고 P값이 작은 결과를 골라서 제시했기 때문에 작을 수도 있다. 반대로 P값이 큰 경우에 데이터가 사용한 모델 하에서 이례적이지 않다는 것만을 의미할 뿐이지 모델이나 그와 관련된 어떤 것(예를 들면 귀무가설)이 옳다는 것을 의미하지는 않는다. 대신 연구프로토콜이 위반되었거나 또는 큰 P값을 선택적으로 보고했기 때문에 높을 수도 있다.


 

 

by 카이로스 | 2018/04/15 19:17 | 일반 | 트랙백 | 덧글(0)

트랙백 주소 : http://hojangkwon.egloos.com/tb/4423696
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶