大学院の研究ミーティングの際に、「Statistically significantって書いたら、査読者にやめろ!と怒られるよ」という噂が聞こえてきました。え?まじですか!?というわけで、Nature誌の関連コメントを(大幅に意訳して)まとめます。私の勝手な解釈&訳である点はご理解を。公開されていますので、興味ある方は是非原文をご覧ください。

Scientists rise up against statistical significance.

P値が有意じゃないから差がない!とよく学会で聞くよね?聴衆の一部でも、「は?」と思った人が一部でも居ることを願う。

<Pervasive problem>
まず、「Pが0.05より大きいから、信頼区間が0またいでるから差がない」と主張するのをやめよう。ある研究では有意、別の研究では有意じゃない場合に「反対の研究結果だ」と判断することをやめよう。

抗炎症薬とAfの関連をみた研究を紹介します。先行研究では有意差がでたが、後の研究では有意差にはならなかった。そして研究者の一部は先行研究とは反対の結果だ!抗炎症薬は悪くない!と結論づけた。実際の数字をみてみると、後の研究ではリスク比1.2 (0.97, 1.48; p=0.091)、先行研究ではリスク比1.2 (1.09, 1.33; p=0.0003)と、どちらも信頼区間内に重要な結果(20%のリスク増)が含まれている。このような愚かな解釈が何百もの文献でみられている(約800文献調べたら半分は間違った解釈)。

2016年にAmerican Statistical AssocistionがP値の誤用について声明を出していますが(以前記事にしました)、今月新たに特集を組んで紹介している。そこで編集者たちは「Statistically significant」という表現はもう使わないことを表明し、多くの生物統計家たちも賛同しています。臨床試験で是非を問う場合の使用を否定するわけではないし、弱いエビデンスを見直せと言うつもりは毛頭ない。従来のP値0.05だけで是非を問う二拓の判断法をやめようと言っているのです。

<Quit categorizing>
人間は二拓の結果があると、白か黒かはっきり区別したくなる。なので有意な結果は大げさに解釈されるし、有意じゃない結果は過小評価されてしまう。そして研究手法や計算法を操作することで、「望ましい結果を誘導する」ことが可能になってしまっている。この操作は「研究手法の事前公開」をしても完全には防げない。

同じように研究しても結果は自然とばらつき、P値は有意になったりならなかったりします。ので、結果の不確実性を理解する必要があるし、「信頼区間」は「compatibility intervals」と言い換えて、信頼しすぎないように、そして区間内の特定の数値にこだわらず、区間全体を結果として考察することを提唱します。

「差がない」との(愚かな)主張があふれていることにはウンザリします。ただ、区間内に重要な数値が全く含まれていない場合には「本研究結果は、重要な効果はないとの結論に最も適合する」と主張することはできるかもしれません。

「compatibility intervals」について考察する際は、以下の4点に注意しましょう。まず第一に、あくまで区間内の数値は「適合度が高い」というだけで、区間外の数値が「適合しない」ということではないこと。第二に区間内の数値の適合度は全て同じではないこと。点推定値付近が最も適合し、区間内ギリギリの数値の適合度は低くなる。第三に区間の計算自体がP値計算と同じく5%をカットオフにしていること(恣意的に計算した数値であること)。そして最も重要なのは、区間の計算自体がどれだけ精確か、用いられた仮定が妥当かということ。

結果を解釈する際には望ましい解釈だけではなく、あらゆる解釈をすべきです。P値や推定区間より、既存の結果、研究デザイン、データの質、メカニズムなどがより重要です。是非の二拓が必要とされる状況もあるでしょう。その場合でも、P値のみで判断するより、コストや利益、潜在的な結果もふくめた総合的な判断がより優れている。

「Statistically significant」を廃止したらどうするか。我々は方法の項と提示されるデータがより詳細になることを望みます。そして著者は区間の上限と下限を引き合いに議論を行う。P値を載せるにしても、「0.05」のカットオフはやめて、実数を載せる。そうすることで統計ソフトに向き合って0.05未満のP値を捻りだす無益な時間がカットできる。

「Statistically significantを廃止」して、「信頼区間をcompatibility intervalsに変更」することで万事解決するわけではない。でも悪しき風習の多くを排除し、新たな考えを導入するきっかけにはなるでしょう。「Statistically significant」の誤用は科学の発展に大きな害をもたらしてきた。ようやく見直す時期がやってきました。

【コメント】
非常に重要なコメントだと思います。論文書くときは先行文献をいくつか参考にしながら書くのが普通だと思いますが、その半分(以上?)がマチガイだったと。信頼区間は今後やめて、適合区間?にかえよう。誰もが当たり前のように使ってきたP値計算、ついに生物統計家たちがその誤用を正すために立ち上がったようです。今後査読するときWe actively discourage use of the term "statistically significant" and statements in method sections such as "findings at p<0.05 were considered signifcant"って書いたろ…