古典的統計手法に超高速アルゴリズムを組み合わせ、ビッグデータから新しい事象を見出す統計手法を開発
2013年8月22日
東京工業大学大学院 情報理工学研究科 計算工学専攻
瀬々 潤 准教授
生命科学の研究では、P値(検出された事象が誤りである確率を示す検定値)は発見の信頼性を担保する重要な概念となっており、P値が0.05あるいは0.01といった閾値以下(有意水準とした5%以下あるいは1%以下)であることが必須とされ、論文にも明記することが求められている。
遺伝子の変異を例に取ると、次世代シーケンサーの登場で読み取れる情報が膨大になり、数多くの変異が発見される一方で、変異が少数の場合と同一の基準で調べると、偶発的に生まれる誤発見を含む確率も高くなる。誤発見を避けるためには、データが増えるに従って、P値の計算方法をより精度の高いものにする必要がある。ところが、これまで膨大なデータからP値を精度よく求める計算方法がなく、対象を限定して従来の統計学的方法で解析すると、特に複数の変異が関わるような複雑な生命現象が発見できないことが大きな問題となっている。
東京工業大学大学院 情報理工学研究科 計算工学専攻の瀬々潤准教授は、このほど同専攻博士後期課程の寺田 愛花(てらだ・あいか)氏、産業技術総合研究所生命情報工学研究センターの津田 宏治(つだ・こうじ)主任研究員、理化学研究所 統合生命医科学研究センターの岡田 眞里子(おかだ・まりこ)チームリーダーとともに、ビッグデータから高い精度でP値を求める統計手法を開発した(Terada A, Okada-Hatakeyama M, Tsuda K, Sese J. Proc. Natl. Acad. Sci. USA 110, 12996–13001 (2013))。

多重検定補正法を適用した場合、因子数(対象数)が少ない場合(左)は統計的有意が認められて科学的発見となっても、因子数が多くなると補正P値が有意水準の0.05を超えてしまい、科学的発見と認められなくなることがある。 | 拡大する
組み合わせ因子を考えた場合の現在の統計手法の限界について、瀬々准教授は下記のように説明する。「例えば、ある疾患に遺伝子4個が関連するかを調べるとするとしましょう。この時、一切疾患に関係ないならば、4個の全ての組み合わせ、計15通りの因子についてP値を求めても、いずれも有意水準を超えないことになります。遺伝子10個なら約1000通りが、有意水準を超えないはずだということになりますが、1000因子も調べれば偶然有意になるものも現れるかもしれません。このように組み合わせを考えると、疾患に関係ないと言い切るのが難しくなり、言い換えると、誤発見の確率が高くなるのです。誤発見を避けるため、生命科学の統計では、多重検定補正法として“因子がn個であれば、P値にnを掛けて補正し、それが5%以下であれば発見とする”というシンプルなBonferroni法がよく使われ、誤発見が存在する確率を5%以下に調整しています。このBonferroni法は因子の数を補正係数としているため、組み合わせを考えると補正係数が増え、補正後のP値が非常に大きくなります。こうなると、せっかくデータを増やしたのに発見が難しくなるジレンマが生じてしまいます(“ビッグデータのパラドックス”、図参照)」。

頻出パターンマイニングのアルゴリズムによって最適な頻度の閾値が自動的に決定され、出現頻度が低い組み合わせ因子は除かれるため、高頻度の組み合わせ因子のみが補正係数に含まれ、組み合わせ因子に関する新しい科学的発見が可能となる。 | 拡大する
そこで、瀬々准教授らは1990年に米国のTaroneが行ったBonferroni法の改良の研究で“出現頻度の低い因子は誤発見が起こる確率を変化させない”と報告していたことに注目。従来から研究していた頻出パターンマイニングを中心とする超高速アルゴリズムを用いて、出現頻度の低い組み合わせをデータから取り除き、補正係数の精度を上げた上で補正P値を計算するアルゴリズムLAMP(Limitless-Arity Multiple-testing Procedure:無限次数多重検定法)を編み出した。
頻出パターンマイニングは、「スーパーで、頻繁に一緒に買われる商品の組み合わせを見つける手法」と瀬々准教授。この頻出パターンマイニングなどのアルゴリズムを用いて、これまでも疾患に関連の高い遺伝子群を選び出すことに成功していたが、そもそもこれらのアルゴリズムにはP値という概念がない。「アルゴリズムによる計算から強い関連があることが示唆されても、共同研究先の医師などから“P値はいくつ?”と聞かれることが多く、(P値がないため)結果が採用されにくかったですね。このため、アルゴリズムと統計の考えを融合して、膨大なデータを扱う際のP値の計算方法を考えたかったのです」と話す。
「Bonferroniの多重検定法では、データベースに存在する全ての変異数を補正係数とする必要があります。それに対し、Taroneさんは、日本人の疾患を調べるのであれば日本人に存在しない変異まで考える必要があるのか? ということを理論的に考え、出現頻度の低い変異は影響しないことを証明しました。我々はそれをさらに発展させ、日本人にほとんど共通しない変異の組み合わせは補正係数に含めなくてもよいことを示しました。この特質は、頻出パターンマイニングと相性がよかったのです」と瀬々准教授。LAMPは、古典的な統計手法であるBonferroniの多重検定補正法とTaroneの着眼、頻出パターンマイニングのようなアルゴリズムと超高速計算機の力を組み合わせるという、瀬々准教授らのアイディアの賜なのだ。
瀬々准教授らは、この統計手法を用いて、既存のヒト乳がん細胞株の遺伝子発現データから最大8個の転写因子の組み合わせが乳がん細胞の増殖に関係していることを見いだした。
今後、この統計方法は、“お蔵入りしている”遺伝子解析データの再検討だけでなく、化学物質の物性の研究、医薬品の新規開発や飲み合わせによる副作用の研究、遺伝子と脳のMRI画像のような臨床データとの組み合わせなど、さまざまな事象に応用できる可能性がある。「自動洗濯乾燥機や自動掃除機ができて生活が変わるように、科学界に新しい道具を提供して新しい発見ができる手助けをしたい」と瀬々准教授は抱負を語る。
小島あゆみ サイエンスライター