News in Focus

脳スキャンに基づく研究結果の多くは信頼性不足

Nature ダイジェスト Vol. 19 No. 6 | doi : 10.1038/ndigest.2022.220609

原文:Nature (2022-03-17) | doi: 10.1038/d41586-022-00767-3 | Can brain scans reveal behaviour? Bombshell study says not yet

Ewen Callaway

脳画像の特徴を認知能力などの形質と関連付ける研究は、規模が小さ過ぎて信頼性が低い可能性がある。

言葉を繰り返して発音しているときに活動する脳領域を、機能的磁気共鳴画像法(fMRI)を用いて撮影した脳画像。 | 拡大する

BSIP/Contributor/Universal Images Group/Getty

2019年、ワシントン大学(米国ミズーリ州セントルイス)の神経科学者Scott Marekは、子どもの発達をテーマとする学術誌に論文を寄稿してほしいと依頼された。それまでの研究から、子どもの脳機能の個人差は知能検査の成績と関連することが示されていたため、この傾向を調べるべく彼は、2000人の子どもたちの脳画像を分析することにした。

当時、脳画像データセットはどんどん大きくなっていた。Marekらは、これにより研究の信頼性が高まったかどうかを確かめるため、データを2つに分けて、それぞれのサブセットを同じ方法で分析した。その結果は一致するはずだったが、実際には正反対の結果になった。「両方が完全に同じになるだろうと思っていたので、私は衝撃を受けました」とMarekは言う。「それがこの分野にとって何を意味しているかを考えると暗たんたる気分になり、自宅の窓の外をじっと見つめていました」。

そして、Marekらは2022年3月、Nature で衝撃的な論文を発表した。彼自身が2019年に行った規模の脳画像研究でさえ、脳機能と行動との関連のほとんどを確実に検出するには小規模過ぎることが示されたのだ(S. Marek et al. Nature 603, 654–660; 2022)。

これまでに報告されている「ブレインワイド関連解析(BWAS)」の参加者は数十人から数百人であることが多いため、Marekらの指摘が正しいなら、そのほとんどの結論が間違っている可能性がある。こうした研究では、脳の構造や活動の変化を、認知能力、メンタルヘルス、行動形質の違いと結び付けている。例えば、うつ病と診断された人とそうでない人を識別できる脳の解剖学的特徴や活動パターンを突き止めたとする研究は多い。行動形質のバイオマーカー探索もしばしば行われている。

この論文の査読者の1人であるスタンフォード大学(米国カリフォルニア州)の認知神経科学者Russell Poldrackは、「多くの研究者が、この論文が『基本的に無価値』と断じる種類の研究に、職業人生を懸けてきました」と言う。「こうした研究は見直しを迫られることになります」。

Marekをはじめとするこの論文の著者らは、自分たちが批判するのは、脳画像によって人々の行動の違いを説明しようとする一部の研究だけだと強調している。しかし一部の科学者は、著者らの批判はこの分野全体に泥を塗るものだと考えている。脳と行動の関連についての小規模で詳細な研究からは、よりロバストな知見が得られると彼らは言う。

2つに分けたデータセットの分析から研究結果を再現できなかったMarekは、ワシントン大学の神経科学者であるNico Dosenbachらと共に理由の解明に乗り出し、その成果を今回の論文として発表した。この研究で彼らはまず、英国バイオバンクの脳スキャンデータのコレクションなど、複数の大規模脳画像プロジェクトで収集された5万人分の磁気共鳴画像法(MRI)による脳スキャンデータと行動データを分析した。

スキャンデータの一部は、脳の特定の領域の大きさなど、脳の構造をさまざまな側面から測定していた。記憶の想起などの課題遂行時や安静時の脳活動を測定する機能的MRI(fMRI)と呼ばれる手法を用いて、脳領域間の連絡の仕組みを明らかにするものもあった。

研究者らは次に、これらの大規模データベースから抽出したサブセットを用いて、25人から3万2000人以上までのサンプルについてMRIスキャンとさまざまな認知的・行動的・人口統計学的形質との関連を探る、多くの小規模研究のシミュレーションを行った。

その結果、サンプルサイズが数千以上のシミュレーション研究では、脳の特定の部位の構造や活動を行動形質と関連付ける、信頼性の高い相関が見られ、同じデータの異なるサブセットでもその相関を再現することができた。とはいえこれらの関連は、他の多くの研究で報告されている関連に比べるとはるかに弱い傾向があった。

研究者は、相関の強さを「r値」という指標で測っている。r=1であれば完全な相関があり、r=0なら相関は全くない。MarekとDosenbachのチームが発見した信頼性の高い相関は、最も強いものでもr=0.16で、中央値は0.01であった。しかし、出版されている論文では、0.2よりも大きいr値は珍しくない。

この食い違いを理解するため、研究者らは小規模の研究のシミュレーションを行った。その結果、r値がもっと大きい、はるかに強い相関が見つかったが、これらの知見は、r値の大小にかかわらず他のサンプルでは再現できないことが分かった。サンプルサイズが2000なら、現在の基準では大規模といってよい研究だが、この規模の研究で見つかった関連でさえ、再現できる確率は25%しかなかった。より典型的な、サンプルサイズが500以下の研究になると、信頼性の高い関連はわずか5%程度であった。

さらに大規模な研究へ

今回の研究では、これら以外のBWASの再現は試みられていないものの、その結果は、文献でよく見られる高いr値がほぼ間違いなく偶然の産物であり、再現できそうにないことを示唆している。Dosenbachは、研究の再現性を損なうさまざまな要因(統計的に有意で、効果量が大きい結果のみが発表される傾向など)のせいで、脳と行動との偽の関連が文献に溢れているのだと言う。「研究者は、効果量が十分に大きい結果だけを発表しているのです。確かにそういう関連は見つかりますが、間違っていることが多いのです」とDosenbachは言う。

このような研究の信頼性を高めるためには、脳画像研究はもっと大規模に行う必要があるとMarekとDosenbachらは主張し、遺伝学研究を引き合いに出す。遺伝学研究も、かつては偽陽性が多かったが、研究者と資金提供機関が実験参加者の人数を大幅に増やして関連の検索を始めたことで、この問題を解決したと指摘する(2019年1月号「数の力で健康リスクを予測」、2020年3月号「因果関係を見つけ出すツール」、同年11月号「統計学と情報学で病気を解き明かし、個々の患者に合った医療へ」参照)。今では、大規模なゲノムワイド関連解析(GWAS)のサンプルサイズは数百万である。研究チームが「ブレインワイド関連解析(BWAS)」という用語を作ったのは、遺伝学とのこうした類似を意識してのことだった。

Marekは、「脳画像については、サンプルサイズを数十万、数百万にする必要はないかもしれませんが、数千はあると安心でしょう」と言う。

ノースウェスタン大学(米国イリノイ州エバンストン)の認知神経科学者であるCaterina Grattonは、「Marekの論文は、サンプルサイズを非常に大きくしないと、脳と行動の間に何らかの相関を見つけられたように思えても、間違っているか、ただ運が良かっただけである可能性が高いことを示しています」と言う。「この分野にとって重要な論文です」。

一部の研究者は、小規模なBWAS研究にも価値はあると反論する。国立衛生研究所(NIH)傘下の国立精神衛生研究所(NIMH;米国メリーランド州ベセスダ)の神経科学者であるPeter Bandettiniは、Marekのチームがシミュレーションした研究は、自己申告型調査などによる行動やメンタルヘルスの粗雑な測定結果と脳スキャンとの相関を検索するものであり、その条件は参加者ごとにばらつきがあり、真の関連が見えにくくなっているかもしれないと指摘する。

オックスフォード大学(英国)の神経科学者で、英国バイオバンクの脳画像プロジェクトを率いるStephen Smithは、参加者を慎重に選び、洗練された手法で脳画像データを解析すれば、脳スキャンと行動の間に、今回の研究で明らかになったものよりも強い関連を見いだすことができるかもしれないと言う。「この論文は、信頼性の低さを過大評価しているのではないでしょうか」と Smithは言う。

(翻訳:三枝小夜子)

キーワード

Nature ダイジェスト Online edition: ISSN 2424-0702 Print edition: ISSN 2189-7778

プライバシーマーク制度