「被害者が犯行可能な人を犯人の候補」とするWald法
背景
二項分布やベルヌーイ試行の確率の信頼区間を求める方法として、Wald法というものがある。 非常に気持ち悪いと思うのだが、まだ多くの人がその気持ち悪さを理解していないと思うので、自分の力不足を感じながらも書いた。
Wald 法
正規分布は のとき、ベルヌーイ試行の確率によい近似となるらしい。 ここで、 はそれぞれ、母平均、母分散、 は試行回数。
である。ここで、 は正規分布分位数。 ベルヌーイ試行の成功確率の分散は と平均を使って表すことができるので、 正規分布で近似したベルヌーイ試行の母平均の信頼区間は
となる(一つ目の近似。分布の近似)。
さらに 試行回数が多くなれば 中心極限定理により、標本平均は母平均に近づく。
よって母平均を標本平均と標本分散に置き換える(二つ目の近似。今度は値の近似)。 すなわち、 を標本平均とする。よって、母平均を標本平均と近似し、さらに分布も正規分布で近似した、 ベルヌーイ試行の成功確率の母平均の信頼区間は
となる。これが Wald 法。
Wilson score interval
母平均が分かっていたなら、標本平均はどのように分布するだろうか。 標本平均の分布は、正規分布 に従うと仮定すると、確信区間*1
に入ることになる(一度目の近似)。
ある母平均 を考えたとき、観測された標本平均 がこの確信区間の外だったとき、その母平均は信頼区間の外であると考える。
これが、Wilson score interval の考えである。
続けると、この信頼区間の境界は次のようにして求める。
次の式を満たすとき、標本平均は確信区間に入っている。
両辺二乗して、
が得られる。ところで、区間の境界は等号が成り立つところである。すなわち、
である。これは についての二次方程式なので、それを解くと、
ここで、 (論文の式)
これが Wilson score interval である。
考察
Wilson score interval を考えると Wald 法の気持ち悪さが浮き出てくる。
母平均の信頼区間を求めるのに、母平均を標本平均で近似している。
犯人を推定するのに、被害者を一旦犯人とおいて、被害者が犯行可能な人を本当の犯人の候補とするのがWald法である。
それでうまくいことがあるとしても気持ち悪すぎる。
参考
http://www.barestatistics.nl/uploads/1/1/7/9/11797954/wilson_1927.pdf