統計的仮説検定の考え方と誤解


この記事は主に以下の方に向けて書かれています。

  • 統計学に苦手意識のある方
  • 「統計的に有意な結果が得られた」という記述を見て、その内容を正しいと思ってしまう方

この記事には以下の内容が書かれています。

  • 統計的仮説検定は、確率的な背理法です
  • 統計的に有意な水準で差異があることと、差異自体に重要性があることとはまったく別の話です
  • 「統計的に有意な水準で~」という記述自体には、実はあまり意味がなく、逆にミスリーディングとなる可能性があります

先日、エンジニアの友人と会話をしていたところ、統計学は普段使わないから実はあまり分かってないんだよね、という話になりました。そこで私の理解を少し話したのですが、その内容を簡単にまとめておきたいと思います。なお、私自身は経理マンでして、統計の専門家ではありませんので、もし誤りがありましたらご指摘いただけると幸いです。

統計的仮説検定とは

検定」や「有意水準」などの言葉を聞くと身構えてしまう方もいると思いますが、そんなに難しい話ではありませんので、例を一つ挙げたいと思います。

1枚のコインがあるとして、これを6回放り投げたところ、6回連続で表が出たとします。このとき、このコインは何か細工がしてあると言えるでしょうか?

通常のコインであれば、裏表が出る確率は半分ずつとなるはずです。このとき、6回連続で表もしくは裏が出る確率を計算すると、表が6回出る確率は1/2を6回掛けて1/64、表と裏の両方を考えると2/64=約3%となります。この3%をどう評価するか、という話になります。3%しか起こらないのであれば、コインに細工がされているに違いないとも言えますし、逆に3%も起こり得るのであれば、やはり普通のコインなのではないか、とも言えます。

この3%の値を統計学ではp値(p-valueと呼んでいます。そして、これを評価するために出てくるのが「有意水準」という考え方です。たとえば有意水準を5%とすれば、p値が5%を下回っているので、統計的に有意な水準でコインには細工がされている、と言えることになります。一方、有意水準を1%とすれば、p値は1%よりも大きいので、統計的に有意な水準で結論は出ない、ということになります*1

これがまさに統計的仮説検定の考え方になります。ここでは、「コインには細工がなされておらず、裏表が出る確率は半分ずつ」という仮説を置いています。これを「帰無仮説」と呼びます。このとき、帰無仮説の反対、すなわち「コインには細工がなされていて、裏表が出る確率は半分ずつではない」という仮説を「対立仮説」と呼びます。

帰無仮説」を正しいと仮定して、実際に起きた事象が起きる確率であるp値を計算し、これが有意水準を下回っていれば、「帰無仮説」を棄却して「対立仮説」を採択する、という流れになります。これはいわゆる背理法的な考え方であり、統計的仮説検定は、確率的な背理法であると言えます。

なお、よくある勘違いとしては、もしp値が有意水準を上回ったとしても、「帰無仮説」が採択されるわけではないので、注意が必要です。コインの例でいうと、有意水準を1%に設定すると、p値は3%なので「帰無仮説」を棄却することはできませんが、このときは「統計学的には何も言えない」というのが正しい結論になります*2

区間推定と検定

実は統計的仮説検定には問題があるとして批判がされることがあり、検定ではなくて区間推定を使うべきという意見があります。検定と区間推定は本質的には同じものですが、区間推定とは何かについて、ごくごく簡単に記載します。

区間推定においては、信頼区間という概念が登場します。詳細は割愛しますが、たとえばAというダイエット薬があるとして、これを何人かに投与して効果を測定したところ、効果の平均値は25gだった場合、区間推定を行うと、統計的に95%信頼区間では20~30gの減量効果があった、といった形で結論を導くことができます。このとき、薬の効果は正しくは何gなのかを考えるにあたり、大体20~30gの間に正しい値が含まれているだろう、と考えることができます*3

このとき、仮に統計的仮説検定を行い、帰無仮説を「Aの効果はない」とした場合、有意水準を5%として、帰無仮説を棄却することができます。なぜなら95%信頼区間の中に「ゼロ」が含まれていないからです。たとえば、95%信頼区間が-10~60gという範囲であった場合、この区間には「ゼロ」が含まれるので、仮説検定を行うと、有意水準を5%とすると帰無仮説を棄却することができず、「Aの効果があるとは言えない」という結論になります。

統計的仮説検定の問題点とよくある誤解

統計的仮説検定が使われる場面として、二つのものを比べて有意に差があるかどうか、というケースがよくあります。たとえばAとBの二つのダイエット薬があり、Aの効果の95%信頼区間が20~30g、Bの効果の95%信頼区間が40~60gとなった場合、AとBの95%信頼区間が重なっていないため、有意水準を5%として、AとBとの間には統計的に有意な水準で差異があるとみなされます。

しかしながら、ここに一つ落とし穴があります。信頼区間の幅は標準誤差に影響を受けますが、この標準誤差はサンプルサイズ*4を大きくすると小さくなる性質があります*5。そのため、たくさんのデータを集めれば、信頼区間の範囲を狭めることができます

そうすると、大量のデータを集めた結果、たとえばAの効果の95%信頼区間が20~20.5g、Bの効果が95%信頼区間が21~21.5gだったらどうでしょう?この場合であっても、有意水準を5%として、統計的に有意な水準で差異があるとみなされます。しかし、本当にAとBに実質的に差異があると言えるでしょうか?これはケースバイケースですが、このくらいの差異であれば、差異の重要性が小さく、AとBとの間に実質的に差異がないと言えるケースもあるのではないでしょうか?このとき、大切なポイントとしては、その差異が実際にどのくらい大きいのかを考える必要があるということです*6

そのためには、検定で有意かそうでないかを機械的に判定するのではなく、区間推定を行って、その信頼区間の範囲を比べて重要かどうか判断することが必須になります。なぜなら、データ数を増やしてサンプルサイズを大きくすれば、検定をした際に統計的に有意な結論を導くことができてしまうからです。二つのものを比べる場合、一般的には、厳密に両者が完全に等しいということはあり得ないため、データ数を増やしていけば、どこかで統計的に有意な差が検出されることになります。

極端な話、検定を行った結果「統計的に有意な水準で差異が認められた」*7という文章自体にはほとんど意味がないのです。それは、有意水準が書かれていないという問題もありますが、それに加えて、どのくらいの差異があったか、という最も重要な情報が抜け落ちているからです。統計的に有意な水準で差異があること(statistically significant)と、差異自体に重要性があること(practically significant)とはまったく別の話なのです。このことが多くのケースで認識されておらず、ときに深刻な誤解やミスリーディングを招いているように思います*8

*1:有意水準の水準として5%や1%という値自体にあまり意味はありませんが、慣例的に5%や1%が利用されることが多いです。

*2:このように、有意水準をどの水準に置くかで結論が変わってしまいます。今回のようにp値が3%の場合に、結論ありきで有意水準として5%を選択するというのは、本来であれば厳禁であり、試行を行う前に有意水準や試行回数を決めておく必要があります。もっとも、実際には結論ありきになっているケースも多いようで、このあたりが統計的仮説検定への批判につながっているようです。

*3:よくある勘違いとして、正しい値が20~30gの中にある確率が95%である、という誤解があります。正しい値は神のみぞ知る値として確定していますので、20~30gの間に入っているか、入っていないかの2択しかありません。正しくは、95%信頼区間を求める測定作業をランダムに100回実施したときに、95回はその区間の中に母平均が含まれる、という解釈になります。ただ、いずれにしても、大体20~30gの間に正しい値が含まれているだろう、と考えて問題ありません。

*4:蛇足ですが、サンプルサイズとサンプル数は異なる概念であり、よく混同されるので注意が必要です。サンプルサイズは測定したデータの数を表しています。サンプル数は、データの塊であるサンプルがいくつあるかを表しています。

*5:標本平均の標準誤差は、標準偏差をサンプルサイズの平方根で除した値となります。

*6:もちろん小さな差異であっても、それが実質的に重要な意味を持つというケースもあり得ます。

*7:新聞の記事など、統計にあまり詳しくない方が書いたと思われる文章において、よくこのような言い回しを見ることがあります。

*8:これは統計的に有意であることを、英語でsignificantということも関係しているように思います。ここでのsignificantには統計的に有意ということ以上の意味はなく、重要という意味ではないのです。