News

統計学の大物学者がP値の刷新を提案

新発見の統計的有意性を評価するために、科学者が好んで用いるP値の閾値は0.05から0.005に引き下げるべきであると、統計学の大家たちは主張する。

Credit: Wittayayut/iStock / Getty Images Plus/Getty

今日の科学は「再現性の危機」に苦しんでいて、研究者も助成機関も出版社も、学術文献は信頼できない結果にまみれているのではないかと不安を募らせている。このほど72人の著名な研究者が、新たな発見をしたと主張する際の証拠の統計的基準の低さが再現性の危機の一因になっているとする論文を発表した。

多くの研究分野では、発見の有意性はP値によって判断される。P値は、帰無仮説（一般に、検定される効果が存在しないと仮定する）が成立する確率で、仮説の検定を行う際に、仮説を棄却するために用いられる「有意水準」である。一連の結果について、P値が小さいほど、そのような結果が偶然に生じた可能性は小さくなる。P値が0.05を下回ると、結果は「統計的に有意」であると見なされる。

けれども多くの科学者は、P値の閾値を0.05とする論文で、多くの偽陽性が生じていることを問題視している。この問題を悪化させているのが、研究者が検定を行う仮説を立てることなくデータを収集し、結果が出てから「統計的に有意である」と報告できるようなパターンを探す「P値ハッキング（P hacking）」と呼ばれる行為だ。

2017年7月22日、「社会科学と生物医学ではP値の閾値は0.005にするべきだ」と提案するセンセーショナルな論文のプレプリントが、心理学分野のプレプリントサーバーPsyArXivに投稿され¹、9月1日に最終版がNature Human Behaviourで発表された²。

論文の責任著者の1人である南カリフォルニア大学（米国ロサンゼルス）の経済学者Daniel Benjaminは、「研究者は、P値を0.05とするときに、それがどれほど弱い証拠であるかが分かっていないのです」と言う。彼は、P値が0.05～0.005のときの主張は、確固たる知識ではなく、単なる「示唆的な証拠」として扱うべきだと考えている。

この論文の共著者には、再現性の大家が2人含まれている。1人は科学研究の信頼性に関する研究で知られるスタンフォード大学（米国カリフォルニア州）のJohn Ioannidisで、もう1人はオープンサイエンス・センター（米国バージニア州シャーロッツビル）の所長であるBrian Nosekだ。

サンプルサイズを大きくする

計量心理学と統計学の研究者であるフローニンゲン大学（オランダ）のCasper Albersは、P値の閾値を小さくすることの問題の1つは偽陰性率が高くなることだと指摘する。偽陰性とは、実際にはその効果が存在しているのに、存在しないと判断してしまうことだ。Benjaminらは、研究者がサンプルサイズを70%大きくすれば、この問題は生じないと提案する。サンプルサイズをここまで大きくすれば、偽陰性率を上げることなく偽陽性率を劇的に下げられるという。これに対してAlbersは、研究資金がよほど潤沢にある科学者でないと、そんなやり方はできないだろうと考えている。

イリノイ工科大学（米国シカゴ）のコンピューター科学者Shlomo Argamonは、問題の解決は容易ではないと言う。「どの信頼度を選ぶにしろ、実験を設計する方法がいろいろあれば、1つくらいは偶然に『統計的に有意』な結果が出るような方法があると思われるからです」。彼は、新しい方法論的基準や研究インセンティブなどの抜本的な変化が必要であると主張する。

レディング大学（英国）の認知神経科学者Tom Johnstoneは、P値を小さくすると、ネガティブな結果が出た研究は出版されないという「お蔵入り問題（file-drawer problem）」も悪化するのではないかと心配している。この点についてBenjaminは、P値にかかわらず、全ての研究が出版されなければならないと述べる。

動くゴール

P値の取り締まりに乗り出した科学分野もある。2015年には、心理学の学術誌Basic and Applied Social Psychology （BASP）が、P値の使用を禁止している。また、今回の論文の責任著者の1人であるテキサスA&M大学（米国カレッジステーション）の統計学者Valen Johnsonによると、原子の衝突実験から大量のデータを収集する素粒子物理学者たちは、ずっと前から、P値を甘くすると間違った主張につながる恐れがあるとして、P値を0.0000003（3×10⁻⁷）未満にすることを要求しているという。遺伝学者たちも10年以上前に、同じような経緯から、ゲノムワイド関連解析（GWAS；ヒトDNA中の数十万カ所の一塩基多型の遺伝子型を比較して、疾患がある人とない人の違いを調べる手法）については、P値の閾値を5×10⁻⁸としている。

P値の使用をやめて、ベイズ統計などの、より洗練された統計ツールを用いる科学者もいる。ベイズ統計による仮説検定では、研究者は対立する2つの仮説を定義して検定を行う必要がある。しかしJohnsonは、全ての研究者がベイズ統計を行うのに必要な専門知識を持っているわけではないと言い、ある仮説が証拠によって支持されるかどうかを評価するのにP値はまだ役に立つと考えている。「P値自体は、必ずしも悪いものではないのです」。

翻訳：三枝小夜子

Nature ダイジェスト Vol. 14 No. 11

DOI: 10.1038/ndigest.2017.171118

原文

Big names in statistics want to shake up much-maligned P value

Nature (2017-08-03) | DOI: 10.1038/nature.2017.22375
Dalmeet Singh Chawla
訳註：9月18日、アイントホーフェン工科大学（オランダ）の実験心理学者Daniel Lakensをはじめとする88人の科学者がPsyArXivに論文を投稿し（https://psyarxiv.com/9s3y6）、再現性をめぐる問題はP値を一律に0.005にすれば解決するというものではなく、科学者は実験を設計する際にP値の閾値を選択し、選択の理由を十分に説明するべきだと反論した。

参考文献

Benjamin, D. et al. http://osf.io/preprints/psyarxiv/mky9j (2017).
Benjamin, D. J. et al. Nature Human Behaviour http://dx.doi.org/10.1038/s41562-017-0189-z (2017).