中野智文のブログ

データ・マエショリストのメモ

「被害者が犯行可能な人を犯人の候補」とするWald法

背景

二項分布やベルヌーイ試行の確率の信頼区間を求める方法として、Wald法というものがある。非常に気持ち悪いと思うのだが、まだ多くの人がその気持ち悪さを理解していないと思うので、自分の力不足を感じながらも書いた。

Wald 法

正規分布は $n\mu > 5, n\sigma^2 > 5$ のとき、ベルヌーイ試行の確率によい近似となるらしい。ここで、 $\mu, \sigma^2$ はそれぞれ、母平均、母分散、 $n$ は試行回数。

正規分布 $N(\mu, \sigma^{2}/n)$ の信頼区間

$\displaystyle \mu \pm z\sqrt{\sigma^{2}/n}$

である。ここで、 $z$ は正規分布分位数。ベルヌーイ試行の成功確率の分散は $\mu(1-\mu)$ と平均を使って表すことができるので、正規分布で近似したベルヌーイ試行の母平均の信頼区間は

$\displaystyle \mu \pm z\sqrt{\mu(1-\mu)/n}$

となる（一つ目の近似。分布の近似）。

さらに 試行回数が多くなれば 中心極限定理により、標本平均は母平均に近づく。

よって母平均を標本平均と標本分散に置き換える（二つ目の近似。今度は値の近似）。すなわち、 $m$ を標本平均とする。よって、母平均を標本平均と近似し、さらに分布も正規分布で近似した、ベルヌーイ試行の成功確率の母平均の信頼区間は $\displaystyle m \pm z\sqrt{m(1-m)/n}$

となる。これが Wald 法。

Wilson score interval

母平均が分かっていたなら、標本平均はどのように分布するだろうか。標本平均の分布は、正規分布 $N(\mu, \sigma^{2}/n)$ に従うと仮定すると、確信区間 *1

$\displaystyle \mu \pm z\sqrt{\mu(1-\mu)/n}$

に入ることになる（一度目の近似）。

ある母平均 $\mu$ を考えたとき、観測された標本平均 $m$ がこの確信区間の外だったとき、その母平均 $\mu$ は信頼区間の外であると考える。

これが、Wilson score interval の考えである。

続けると、この信頼区間の境界は次のようにして求める。

次の式を満たすとき、標本平均 $m$ は確信区間に入っている。

$\displaystyle |\mu - m| \le z \sqrt{\mu(1-\mu)/n}$

両辺二乗して、

$\displaystyle (\mu - m)^2 \le z^2 \mu(1-\mu)/n$

が得られる。ところで、区間の境界は等号が成り立つところである。すなわち、

$\displaystyle (\mu - m)^2 = z^2 \mu(1-\mu)/n$

である。これは $\mu$ についての二次方程式なので、それを解くと、

$\displaystyle \mu = \frac{m+t/2 \pm \sqrt{ m(1-m)t + t^2/4} }{ 1+t }$

ここで、 $t=z^2/n$ (論文の式)

これが Wilson score interval である。

考察

Wilson score interval を考えると Wald 法の気持ち悪さが浮き出てくる。

母平均の信頼区間を求めるのに、母平均を標本平均で近似している。

犯人を推定するのに、被害者を一旦犯人とおいて、被害者が犯行可能な人を本当の犯人の候補とするのがWald法である。

それでうまくいことがあるとしても気持ち悪すぎる。

参考

http://www.barestatistics.nl/uploads/1/1/7/9/11797954/wilson_1927.pdf

*1:信頼区間と区別するために敢えてこのように書く