P값 기준을 0.005로 낮추자는 제안

출처: The proposal to lower by P value threshold to .005 by John PA Ioannidis

PublishedOnline:March22,2018. doi:10.1001/jama.2018.1536

 

  P값과 통계적 유의성 검정 방법은 생의학 분야에서 많은 문제를 일으키고 있다. 초록이나 본문에 p값을 보고한 논문의 대다수(96%)0.05 이하의 P값을 제시하고 있다. 그러나 이러한 논문이 강조하는 주장 중 많은 부분이 허위일 가능성이 높다. 통계적 유의미성이라는 난제의 중요성을 인식한 미국통계협회(ASA)2016P값에 대한 입장을 발표하기도 했다. 현재 상황이 문제가 있다는 것에 대해서는 이견이 없지만 정확히 문제를 해결하는 방법에 대해서는 많은 논쟁이 있다. ASA 성명서에 기여한 사람들은 서로 다른 측면에 초점을 맞추고 다른 해결방법에 우선순위를 매긴 20개의 독립적인 주석을 첨부했다. 또다른 72명의 연구방법론 연구자 집단에서는 최근에 새로운 발견에 대한 통계적 유의성의 기준을 0.05에서 0.005로 낮추자는 구체적이고 단순한 방안을 제안했다. 이 제안에 대해 일부 집단에서는 강력한 지지를 표했고 다른 집단에서는 우려를 표했다.

  P값은 잘못 해석되고, 과도한 신뢰를 받고 있고 오용되고 있다. ASA 성명서는 이 3가지 문제를 자세히 다루고 있다. P값에 대한 여러 가지 오해가 존재하지만 가장 일반적인 것은 "연구 된 가설이 사실일 확률"을 나타낸다고 해석하는 것이다. 예를들어 P값이 0.20 (2 %)인 경우 귀무가설 (: 이 약물은 위약과 효과가 동일하다)가 사실일 가능성이 2%이고 대립가설 (: 이 약은 위약보다 효과가 있다)이 맞을 확률이 98%라고 잘못 해석되고 있는 것이다. 적절한 추론을 위해서는 완전한 보고와 투명성이 요구된다는 사실을 망각할 때 P값에 대해 과도한 신뢰를 하게된다. P값이 작다는 사실만으로 충분한 보고와 투명성이 확보된 것은 아니다. 사실 P값이 작을수록 선택적 보고의 가능성과 불투명성을 의심해봐야 한다. P값의 가장 흔한 오용은 P값은 효과의 크기나 결과의 중요성에 대해 아무런 정보를 주지 못하고 그 자체로는 근거를 제공하는 것이 아님에도 불구하고 P값이 특정 기준값(예를 들면 0.05)을 통과했는지에 따라 과학적 결론을 내리거나 또는 정책 결정을 하는 것이다.

  이 세 가지 주요한 문제는 통계적 유의성 기준(전통적으로 P=.05)를 통과하는 것을 실제로 연구결과(: 연관성 또는 치료 효과)가 참이고 타당하며 의사결정을 할 가치가 있다는 것과 잘못 동일시되고 있다는 것을 의미한다. 이러한 오해는 연구자, 학술지, 독자, 연구논문 사용자, 그리고 과학 정보를 소비하는 대중 매체 및 대중에게까지 영향을 미친다. 0.05보다 약간 낮은 P값으로 뒷받침되는 대부분의 주장은 아마도 거짓이다 (즉 연구에서 주장하는 연관성과 치료효과가 존재하지 않는다). 심지어 참인 주장 가운데도 의학 및 건강관리 분야에서 활용할만한 가치가 있는 내용은 거의 없다.

  통계적유의성의 기준을 낮추자는 주장은 오래전부터 있었다. 몇몇 과학 분야는 연구 결과가 P값이 얼마나 낮아져야 연구 결과가 참일 가능성이 충분히 높아지는지에 대해 신중하게 고려했다. 예를 들어, 집단 유전체학에서 게놈 전반에 걸친 유의성 역치 (P < 5 × 10-8)를 채택함으로써 연구에서 발견된 연관성이 높은 재현성을 갖게 만들었으며 다른 인구집단에서 테스트해도 상관성이 일관되게 나타났다. 인간 게놈은 매우 복잡하지만 유의성 테스트에서 얼마나 많은 다중비교를 하는지 알려져 있고 분석이 체계적이고 투명하기 때문에 P<5 × 10-8라는 기준이 설득력있게 제시될 수 있다.

  그러나 다른 유형의 생물 의학 연구 대부분은 얼마나 다중비교를 필요로 하는지 불분명하며 분석과정이 비체계적이고 불투명하다. 사전 등록된 프로토콜과 분석 계획이 없는 대부분의 관찰연구에서는 얼마나 많은 통계적 검정이 진행되고 어떤 다양한 분석 경로를 탐색 한 것인지 불분명하다. 숨겨진 다중비교, 비체계적 탐색 및 선택적 보고는 실험연구 및 무작위 시험에도 있을 수 있다. 사전에 프로토콜과 통계분석 계획을 갖고 있고 공공 데이터베이스에 시험계획을 사전 등록하는 것이 더 일반적이긴 하지만 데이터와 결과를 분석하는 방법과 정확히 어떤 결과를 제시할 지에 대해서는 아직 연구자가 상당한 재량을 가지고 있다. 또한, 현대의 많은 임상 연구들은 보다 작은 이익이나 위험을 찾아내는데 중점을 두고 있다; 따라서 다양한 바이어스가 결과에 영향을 미칠 위험이 증가한다.

  P값 기준을 .05에서 .005로 변경하면 과거 생물 의학 문헌에서 통계적으로 유의하게 나타난 결과 중 약 3 분의 1이 유의성이 사라지게 된다. 이 변화는 유의성과 비유의성을 이분법적으로 받아들이는 사람에게는 매우 의미 있는 변화이다. 과거 관찰 연구의 대다수에 대해서는 이러한 재분류는 환영받을 일이다. 예를 들어 멘델리안 무작위 연구 결과는 P <.05에 근거한 과거 관찰 연구 결론 중에 인과 관계를 나타내는 것이 거의 없다는 것을 보여준다. 따라서, 통계적 유의성의 기준을 엄격하게 낮추더라도 귀중한 정보의 손실은 상대적으로 거의 없이 대부분 잘못된 결과들을 제거 할 수 있을 것이다. 무작위 시험의 경우, 실재하는 효과가 0.005에서 0.05 사이의 P값으로 나타나는 비율이 더 높을 것이며, 아마도 몇몇 분야에서는 대다수 일 것이다. 그러나 대부분의 연구 결과는 치료 효과가 추가 조치를 필요로 할만큼 충분히 크지는 않다. 따라서 유의 수준을 강화하는 것이 비록 일부 참이고 유용한 결과들을 유의성의 영역에서 제거하게 되겠지만 전반적으로 해보다는 이익이 더 클 것이다. P값을 낮추는 것과 무관하게 치료효과의 크기와 불확실성(신뢰구간으로 표현되는)에 초점을 맞추는 것이 여전히 아주 중요한 일이다.

  통계적 유의성의 기준을 낮추는 것은 임시방편이다. 하지만 기준을 낮추는 것은 통계적유의성의 홍수에 빠져 익사하는 것을 예방하는 댐의 역할을 할 수 있고 보다 지속적인 해결방안을 강구할 수는 시간을 벌게 해 줄 수 있을 것이다. 새로운 해결방안은 통계적유의성의 기준을 포기하거나 심지어 P값 자체를 사용하지 않을 수도 있다. 만일 어떤 기준치를 계속 사용한다면 대부분의 관찰연구에 대해서는 훨씬 낮은 기준치를 사용하는 것이 선호될 것이다. 관찰연구에 대한 다수의 체계적고찰 결과를 다시 포괄적인 고찰(umbrella review)한 결과에서는 P<10-6의 기준치를 제시하고 있다. 게다가 falsification end-point methods(즉 거의 모든 잘 확립된 귀무가설이 통과하기 어려운 그런 P값 기준을 사용) 역시 매우 낮은 P값을 제시하고 있다. 빅데이타의 출현과 함께 통계적유의성은 앞으로 더 의미를 갖기 어려운데 왜냐하면 참이라 하더라도 너무 작아서 유용성이 없는 효과에 대해서도 일상적으로 극도로 낮은 P값이 얻어지기 때문이다.

  더 낮은 P값 기준을 채택하면 새로운 기준을 통과할 수 있는 연구 수는 적더라도 충분한 검정력을 가진 더 크고 보다 세심하게 고안된 연구쪽으로 연구방향이 개혁될 수 있다. 그러나 부수적인 피해도 발생한다. 만일 연구자들이나 이해당사자들이 연구결과가 더 낮은 P값을 갖게 하는 방법을 발견한다면 바이어스 줄어드는 것이 아니라 더 커질 수도 있다. 확실한 임상결과보다는 대체지표를 사용하여 작은 P값을 얻기 쉽기 때문에 연구 종말점(end points)으로 선정된 지표들의 임상적 적합성이 더 떨어지게 될 것이다. 게다가 더 커진 평균회귀 현상 때문에 엄격한 P값 기준을 통과한 결과들이 제한될 것이고 새로운 발견은 예전보다 훨씬 과장된 효과크기를 갖게 될 수 있다.

  새로 제안된 p<0.005는 불완전하기 때문에 보다 어렵더라도 지속가능한 해결방법이 강구되어야 한다. 얼마나 쉽고 빠르게 채택 될 수 있는지에 따라 다양한 해결방법들이 있다. 새로운 해결방법들은 현재까지 축적된 과거의 생물 의학 문헌의 사용과 해석 또는 미래에 축적될 새로운 문헌의 설계와 전개를 목표로 삼을 수 있습니다. 연구결과가 사실로 굳어진 된 이후에는 완벽한 교정방법이 없기 때문에 과거의 문헌에 대해서는 시급히 방안이 마련되어야 한다. 장기적으로는 과학자들은 통계적 추론을 위해 가장 적합한 수단을 사용할 수 있도록 훈련받아야 하고 바이어스는 후향적이 아니라 사전에 대처해야 한다. 그러나 이것은 앞으로도 성취하기 어려운 목표로 남아있을 것이다.

  데이터는 점점 더 복잡해지고 있다. 만일 연구자나 연구의 이용자들이 연구방법이나 통계에 대해서 엄격한 훈련을 받지 않는다면 표준이하의 의학 통계나 이에 따른 잘못된 해석이 지속될 것이다. 그럼에도 불구하고 몇몇 영역에서는 더 낳은 P값 기준을 채택하고, P값에 대한 의존을 낮추고, 적절한 경우에는 다른 유용한 추론방법(예를들면 베이시안 통계)을 채택할 것이다. 이러 변화가 얼마나 빨리 그리고 얼마나 광범위하게 일어날지는 예측하기 어렵다. 과거에 채택이 잘 안된 것이 비관론으로 이어지기도 한다. 그러나 새로운 출발과 더 나은 실행방법을 빨리 채택하는 것은 항상 가능하다. 광범위하고 효과적인 전환을 위해서는 통계수련과정의 근본적인 변화와 함께 주요 학술지와 연구지원기관으로부터의 인센티브 제공이 필요할 것이다.

 

by 카이로스 | 2018/04/14 23:01 | 일반 | 트랙백 | 덧글(1)

트랙백 주소 : http://hojangkwon.egloos.com/tb/4423679
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 채널 2nd™ at 2018/04/15 14:01
>> 대다수(96%)

96 % 정도면 "절대 다수"라고 봅니다만..

베이시안 통계를 채택하면 ㅎㅎ AI는 필연적이겠군요. 기계의 최종 결정을 받아 들이지어다.

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶