Editorial

統計的有意性を巡る重要な論争

統計的有意性に代わる概念とは何だろう。それを探る作業は科学をますます難しくすると思えるかもしれないが、偽陽性や大げさ過ぎる主張、影響の見落としを避けるために役立つ可能性がある。

一部の統計学者たちが、P値を任意の有意性閾値として用いることをやめようと呼び掛けている。 Credit: Erik Dreyer/Getty

The Hitchhikerʼs Guide to the Galaxy（邦題『銀河ヒッチハイク・ガイド』）のファンは、生命、宇宙、そして万物についての究極の疑問の答えが42であることを知っている。もちろんこれは、単一の数値では真実を明らかにできないというジョークだ。

それなのに、真実を明らかにする使命がP値に託されることが多い。P値とは、1つの実験において、その前提条件の下で想定される結果以外の結果（「影響なし」を含む）が生じる可能性を示す尺度のことであり、P値が「統計的有意性」の境界を示す任意の閾値（例えば0.05）を上回るか、下回るかで仮説の採用、論文の出版、製品の上市の可否が決まる。しかし、何を真実として受け入れるかをP値だけで決めると、解析結果に偏りが生じたり、偽陽性が必要以上に強調されたり、本当に影響があったのに見落とされたりする余地が生まれる。

こうした状況に変化の兆しが見られる。Nature 2019年3月21日号に掲載されたComment記事（305ページ）で、3人の統計学者が、「統計的有意性」という術語を用いないことを提案している。ただし、統計指標としてのP値それ自体をやめるのではなく、P値を任意の有意性閾値として用いることをやめようと言っているのだ。この提案には、800人以上の統計学者が署名している。これに関連した一連の論文が、2019年3月20日にアメリカ統計学会からオンライン出版された（R. L. Wasserstein et al. Am. Stat. https://doi.org/10.1080/00031305.2019.1583913; 2019）。そのうちの1編の論文には「この（統計的有意性という）ツールが暴君と化した」という嘆きの言葉が記されている。

統計的有意性は、科学研究の実務と評価にあまりにも深く組み込まれているため、それを切り離すことには痛みを伴うと考えられる。また、切り離すという提案に批判的な論者は、はっきりしない監視役よりは恣意的な監視役の方がましであり、影響を示す証明として有効（あるいは無効）なのはどの実験結果かという点で議論を行う方が有益だ、という反論を提起するだろう。Nature は現時点では、論文の評価における統計解析について、見解を変更することは考えていない。だが、それぞれの立場に妥当な見解があり、読者の皆さまに意見を求めたい（go.nature.com/correspondence）。

研究者が統計的有意性を使わないというのであれば、その代わりに何をすべきだろうか。まずは統計に関する誤解について学ぶというのもある。最も大事なのは、それぞれの研究についてさまざまな点から不確実性を検討する勇気を持つことだろう。論法、背景知識、実験計画をP値やそれと類似した尺度とともに検討して、結論を導き出し、確実性を決定すべきだ。

研究者は、使用する統計的方法を決める際に、できるだけ実際の問題に注目すべきだ。具体的なシナリオを示せば、最善の統計利用法を巡る抽象的な理論に身を捧げる人々は、その実験結果に同意することが多い。

研究者は、さまざまな方法でデータ解析を行い、そうしたデータ解析によって同じ答えが導き出されるかどうかを調べようと試みるべきだ。データセットの解析をさまざまな研究チームに対するクラウドソーシングによって行うプロジェクトでは、このアプローチが、研究知見の妥当性を確認し、新たな知見を得る上で役立つことが示唆されている。

要するに、懐疑的な姿勢を失わず、答えがいのある良い論点を選び、その論点に関する答えを多くの方法で得ようと試みるべきだ。真実に近づくためには多様な数値が必要なのだ。

翻訳：菊川要

Nature ダイジェスト Vol. 16 No. 6

DOI: 10.1038/ndigest.2019.190639

原文

It’s time to talk about ditching statistical significance

Nature (2019-03-21) | DOI: 10.1038/d41586-019-00874-8