中野智文のブログ

データ・マエショリストのメモ

2018-01-01から1ヶ月間の記事一覧

Jupyter notebook (Python3) で mypy のチェックを行う

背景 python3 で導入された型ヒントだが、そのままだと静的にも動的にもアノテーション(単なるコメント)として扱われるらしく、ちょっと残念。 mypy というコマンドで型チェックを行ってくれるらしい。Jupyter notebook 上でも実行したい。 対応 mypy をイ…

「被害者が犯行可能な人を犯人の候補」とするWald法

背景 二項分布やベルヌーイ試行の確率の信頼区間を求める方法として、Wald法というものがある。 非常に気持ち悪いと思うのだが、まだ多くの人がその気持ち悪さを理解していないと思うので、自分の力不足を感じながらも書いた。 Wald 法 正規分布は のとき、…

mac が重くてたまに熱か何かで落ちたのでその時のメモ

背景 mac が重くてたまに熱か何かで落ちる。vagrant で動いているものがあるので、それが原因かと思ったが、 top で確認すると、mds_stores というプロセスが動いていた。 対応 下記のページを参考にしようとした。 blog.tottokug.com ところが、 sudo locat…

正規分布の分位点関数(パーセント点関数)の近似

背景 正規分布の分位点(パーセント点)は数値計算ライブラリの分位点関数を使えば簡単に求められる。 例えば、python だと、scipy.stats.norm の、ppt だ。 ところが、SQL には標準でないようである。 自分で関数を作ってもいいが、ここはSQLでかける近似式…

scikit learn の Kfold, StratifiedKFold, ShuffleSplit の違い

背景 scikit learn の cross validation にて、テスト事例の分割方法に Kfold, StratifiedKFold, ShuffleSplit, StratifiedShuffleSplit というのがある(他にもある)。 その違いがわかりにくい。 Kfold と StratifiedKFold の違い Kfold は知っているとい…

scikit learn の GridSearchCV で検証事例に class_weight(sample_weight) をつける

背景 GridSearchCV で検証事例に sample_weight をつけるような引数はまだ存在しない。 github.com でも使いたい。(使わないとうまく行かねー) metrics 関数自体は sample_weight に対応しているんだよね〜。 対応 対応した metrics 関数をつくり、make_sc…

正規分布の分位数(標準正規分布)を python で求める

背景 あの Z=1.96 などの数値は、正規分布の分位数とか、分位点とか、パーセントを使っている場合には、パーセント点とか、百分位点とか、パーセンタイル とかよばれる。 さてこの正規分布の分位数であるが、計算環境が十分でない状況では標準正規分布表とい…

ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument. というエラー

背景 GridSearchCV をすると、 ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument. というようなエラーに遭遇することがある。 これは「評価用のデータに1つの正解ラベルしか含まれ…