中野智文のブログ

データ・マエショリストのメモ

Wilson score interval を使う。

背景

以前、

blog.goo.ne.jp

にて、Wilson score interval with continuity correction の式のテンプレートを書いたが、本当は外側に条件分岐 if が必要だったり、判別式の中が負になることもあったりと、ちょっと注意して使う必要があった(おいおい)。ちなみに、Wald法とよばれる信頼区間を求める方法があるが、これは正しくないかもしれない信頼区間(こんなものを信頼区間と呼べるのか)を求める方法なので絶対に使わないように。

そこで今回は単なる(with continuity correction が付かない) wilson score interval のテンプレートを作成する。

Wilson score interval テンプレート

前回は P という標本平均をもとにテンプレートを作ったが、結局、P を計算する式が必要で、置換後もっと複雑になるので、成功した回数をX、試行回数をN、標準正規分布の分位数を Zとすると、

UCB: (X+Z*Z/2+Z*sqrt(X*(N-X)/N+Z*Z/4))/(N+Z*Z)
LCB: (X+Z*Z/2-Z*sqrt(X*(N-X)/N+Z*Z/4))/(N+Z*Z)

なんとシンプルな。UCBは信頼上限、LCBは信頼下限を示す。p=0.05(95%信頼区間)ならZ=1.96 となる。

もし、Xが0(もしくはnull)の場合は、

UCB: (Z*Z)/(N+Z*Z) 
LCB: 0 

となる。

参考

数式

https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Wilson_score_interval

文献

Wilson の論文 http://www.barestatistics.nl/uploads/1/1/7/9/11797954/wilson_1927.pdf

追記

Z=1.96 バージョン

UCB: (X+1.96*1.96/2+1.96*sqrt(X*(N-X)/N+1.96*1.96/4))/(N+1.96*1.96)
LCB: (X+1.96*1.96/2-1.96*sqrt(X*(N-X)/N+1.96*1.96/4))/(N+1.96*1.96)