帰無仮説が棄却されないとき-統計的検定で、結論がわかりやすいときには、ご用心:研究員の眼

数学は、はっきりと白黒がつく学問である。高校や中学の数学の問題では、答案は、正しいか、誤りかのどちらかだ。

数学は、はっきりと白黒がつく学問である。高校や中学の数学の問題では、答案は、正しいか、誤りかのどちらかだ。これは、誰もが理解しうる論理の明瞭性という魅力に通じる。

しかし、一方で、問題に対する視点や解釈の違いによる、正誤のゆらぎを一切許さない、という非情さも兼ね備えている。

数学の一分野である統計学も、このことに変わりはない。しかし、統計学では、正確な主張をしようとすると、持って回った言い方になることがある。特に、統計的検定の結論は、わかりにくい。

そもそも統計的検定とは、どういうものか。自然科学でも、社会科学でもいいが、何か主張したいことがあるとしよう。

そこで、まず、その主張に沿って、仮説を立てる。その仮説が正しいことを示すために、実験や観察をして、何らかのデータを得る。

このとき対象のデータを、全て取得することができれば、仮説の正誤が、確実に判定できる。

しかし、全てのデータを得るためには、多くの時間、手間、費用がかかる。また、そもそもデータが無限に存在する場合もある。

そこで、データの取得は、ほどほどのところでやめて、得られたデータから、仮説が正しいのか、誤っているのかを判定しようということになる。こうして行われるのが、統計的検定である。

立てた仮説の正しさを、直接、判定できればいいのだが、事は、そう簡単ではない。全てのデータを取得しないまま、仮説が100%正しいということは示せない。

取得していないデータの中に、その仮説を否定するものが、あるかもしれないからだ。そこで、得られた有限のデータが、仮説に見合った妥当なものなのかどうかを確認したい。

しかし、妥当かどうかの判断というのは、簡単ではない。

そこで、立てた仮説を否定するような、別の仮説を立てる。この仮説を、「帰無仮説」と呼ぶ。これに対して、もともと立てていた仮説を「対立仮説」と呼ぶ。

そして、「もし帰無仮説が正しいとしたら、今回取得できたようなデータが得られる確率は、どれぐらい小さいのか」を計算してみる。

その確率が、一定の水準(例えば、5%)未満であれば、帰無仮説は誤りと判断され、対立仮説の正しさが高まる。

この方法は、数学でよく見かける「背理法」に似ている。背理法は、次のような証明法だ。

「Aであることを、証明しようとする。そのために、まず、Aでないことを仮定する。次に、その仮定に従って、論理を進めていき、矛盾を導き出す。

そして、この矛盾は、Aでないとの仮定が誤っていたために生じたものだと、帰結する。こうして、Aであることが、証明された、との結論に至る。」

統計的推論では、この背理法に、確率が加わるために、表現がややこしくなる。先ほどの5%のような一定の水準を、「有意水準」と呼ぶ。

そして、帰無仮説に基づいて計算した確率が、有意水準よりも小さい場合に、帰無仮説は誤っていると判定する。

このことを、

「有意水準5%で、帰無仮説は棄却され、誤っている、と判断された。」

などと、主張することになる。

ややこしいのが、帰無仮説に基づいて計算した確率が、有意水準以上であった場合だ。この場合は、帰無仮説は棄却されない。しかし、棄却されないからといって、帰無仮説が正しいと示された訳ではない。

帰無仮説は誤っているとも、正しいとも、示されなかったことになる。この場合、

「有意水準5%では、帰無仮説は棄却されず、誤っているとは言えない、と判断された。」

との結論となる。

「『誤っているとは言えない、と判断された』というのは、曖昧でやりきれない。せっかく、統計的検定を行ったのに、正誤の判定ができなかったというのは気が引ける。

ここは、少し強引にでも、結論を導いてしまおう。棄却されないということは、帰無仮説が正しいということではないか。それならば、『帰無仮説は正しい、と判断された』と述べてしまっていいだろう。」

統計学を用いて、結論を導き出したい、と考える人は、こんな風に考えてしまいがちだ。

次のような、具体例を見てみよう。

「猫は人間の話を理解できない」という仮説を立てたとしよう。これに対して、「猫は人間の話を理解できる」という帰無仮説を立てる。

実験結果をもとに、ある有意水準で、帰無仮説が棄却されない場合、猫は人間の話を理解できるということが、誤っているとは言えない、と示されたことになる。

しかし、だからといって、猫は人間の話を理解できる、と示された訳ではない。

このように、統計的検定は、帰無仮説が棄却されないときに、結論が冗長となりやすい。そして、結論をわかりやすくしようとして、ついつい短縮してしまいがちになる。

短縮された結論は、聞き心地がよく、誤ったまま、理解されてしまいやすい。

統計的検定で、得られた結論が、妙にわかりやすいときには、その結論が短縮されていないかどうか、疑ってみるべきと思われるが、いかがだろうか。

関連レポート

(2017年3月6日「研究員の眼」より転載)

株式会社ニッセイ基礎研究所

保険研究部 主任研究員