統計解析のP値にまつわる「めったに起こらないことが起こった」とは

最近、機械学習に取り組んでいる事もあって、統計解析についても勉強し直している。勉強している中で思ったことだが、解説に使われている言い回しがどうもわかりにくい。

機械学習とは直接関係ないがひとつ例を上げると検定における仮説の説明がある、次の言い回しだ。

「めったに起こらないことが起こったと考え帰無仮説を棄却する。」

 

人にこれを説明しとろ言わたら、説明が難しい。

自分は、次の様に考えた。

「めったに起こらないことが起こった。」

=>「帰無仮説の分布の幅の中には入らない特別なことがことが起きている」

=>「この特別なことは、帰無仮説とは認められない」

=>「帰無仮説は、間違っている」

=>「帰無仮説を棄却する」

=>「対立仮説(自分の主張)が正しい」

 

これから次のことも言える、

検定で仮説を設定するときは、二択問題でなければならない。

真偽のどちらかでなければ、片方を否定することで片方が真であると言えないからである。別な言い方をすると、2つの仮説以外のその他の仮説がないことで確かに自分の主張が正しいと言い切れることになる。

 

この例は、機械学習と直接関係ないが、機械学習のコードを触る上で、その背景にある統計解析の理屈も理解して行くようにしたい。