背景 GridSearchCV で検証事例に sample_weight をつけるような引数はまだ存在しない。 github.com でも使いたい。(使わないとうまく行かねー) metrics 関数自体は sample_weight に対応しているんだよね〜。 対応 対応した metrics 関数をつくり、make_sc…
背景 あの Z=1.96 などの数値は、正規分布の分位数とか、分位点とか、パーセントを使っている場合には、パーセント点とか、百分位点とか、パーセンタイル とかよばれる。 さてこの正規分布の分位数であるが、計算環境が十分でない状況では標準正規分布表とい…
背景 GridSearchCV をすると、 ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument. というようなエラーに遭遇することがある。 これは「評価用のデータに1つの正解ラベルしか含まれ…
背景 クッキーが全て取得できない場合でも UU 数を知りたい。 iPhone などのiOSのブラウザでは第三者クッキー(別ドメインのクッキー)が焼けないようになっている。 これは、広告を運用する上では非常に大きな問題である。 なぜなら広告のドメインは広告が…
背景 ある確率未満であることを確認するのに、どれだけサンプルサイズが必要だろうか。 例えば、0.5% 以上のクリック率(CTR)の広告枠にしか広告を出したくないという話を考えよう。 一度その広告枠に広告を出せば、0.5% 未満であること自体は信頼上限の計…
背景 liblinear libsvm の重みや、確率推定の配列は、訓練データのクラスラベルの出現順で、決まるという恐ろしい仕様。 出現順というのは、1行目の事例のほうが2行目の事例より前、という出現順。 もちろん学習後、その順序が参照できるように、モデルの出…
negative down sampling をしたときの logistic regression の最適な方法・設定を調べる。 結論としては、negative down sampling をする前に、 を平均から求める( )。それを対数化すれば切片の重みとなる( )。negative down sampling 後のデータは class_we…
背景 コイン投げのようなベルヌーイ試行の確率の信頼区間は Wilson score interval を使う。 - 中野智文のブログ でいいとして、母集団が正規分布で小標本の場合は、 t 分布で求めるのが、一般的である。 母集団が正規分布に従うときで標本の大きさ(サンプ…
背景 confusion matrix を取得する場合は、一部の例だけでなく cross validation で全ての事例に対して取得したい。 対応 sklearn.model_selection.cross_val_predict を使う。 例 今回は iris のデータを使う。当たり前だが、confusion matrix は普通分類問…
背景 scikit learn で学習しようとすると、メモリーを使い尽くす。 色々なスパースな型に変換して学習 準備 まず、データは次のものを利用。 measurements = [ {'city': 'Dubai', 'temperature': 31.0, 'country': 'U.A.E.'}, {'city': 'London', 'country':…
EC2 のマシンなどで、jupyter notebook で python カーネルを起動した後、次のコマンドを実行 pgrep python | xargs -l1 -I{} sh -c 'echo +15 > /proc/{}/oom_score_adj' 原理的には、python 以外のカーネルでもOKなはず。 追記 2017/11/07 /proc/23715/oom…
背景 sklearn のライブラリに、学習データがdict の配列のときに、sklearn で使えるスパース(疎)な形式に変換する DictVectorizer がある。 この DictVectorizer の説明を見ると、たしかに色々な形式に変換できるようではあるが、実際にどのような形式に変…
背景 jupyter notebook から dataflow 使いたい。 やること python2 次のチュートリアルを cloud shell とローカルのマシンで実行 TensorFlow と Cloud Dataflow を使用したバッチ予測 | ソリューション | Google Cloud Platform qiita.com ただし、utils を…
背景 liblinear の学習で、切片を忘れているのを見た。幸いプロダクトではない。 切片とは、英語で言うと intercept (知っとるわw) このページを見に来た人は特に切片の説明自体はしなくてもよいと思う。どのように取得するのかは、 scikit-learn だと、 …
背景 python ライブラリの gcloud(google.cloud) の storage の get_blob において、 https://googlecloudplatform.github.io/google-cloud-python/0.20.0/storage-buckets.html#google.cloud.storage.bucket.Bucket.get_blob とあるが、試してみると、googl…
背景 sklearn の GridSearchCV はパラメータサーチに利用される。 sklearn.model_selection.GridSearchCV — scikit-learn 0.19.0 documentation ところが、パラメータなし、の設定例はみつからない。 sklearn.linear_model.LogisticRegression — scikit-lear…
準備 購入したもの amzn.to マニュアル CD 内の K4 というマニュアル/K4/k4 Japanese tutorial.doc ダウンロード Arduino - Software インストール 本体の準備 本体(UNO R3)をUSBケーブルで接続。緑LEDの点灯を確認。 ソフトのセットアップ 上記のファイルを…
背景 社員旅行の夜、シンギュラリティについて質問された。 それまであまりよく考えたことがなかったけど、このときに自分の中でかなり整理された。 無限に賢くなる? シンギュラリティの主張は、 AIがもっと賢いAIを作る。 これを繰り返す。 最終的に圧倒的…
背景 json に対応していない mysql 5.7 未満のシステムに、json で値が格納されている。 対応 クソにはクソで。 LOCATE と、SUBSTRING を駆使し、抽出を試みる。 ここに書かれているは方法は、「一般的に」JSONをパースして抽出する方法でなく、利用範囲が限…
背景 luigi にて、パラメータで与えられた日付に対して、固定日分前(例えば一週間など)を求めたい。 from datetime import timedelta import luigi class MyTask(luigi.Task): date = luigi.DateParameter() start_date = date - timedelta(days=7) と書く…
背景 範囲日の繰り返し DateIntervalParameter 指定した範囲の日の処理を指定したい場合は、チュートリアルには次のようなコード例がある。 http://luigi.readthedocs.io/en/stable/example_top_artists.html#step-1b-running-this-in-hadoop def requires(s…
背景 そろそろ jupyter notebook を使いたくなってきた。 前回、Gaussian Processes のライブラリを入れるところまではできたので(下記参照) nakano-tomofumi.hatenablog.com 今回は、jupyter notebook 上でグラフを表示するところまでやってみる。 IJulia…
背景 ある日の空テーブルを作成しようとしたが、スキーマの文字列が必要になった。手作業だとミスが起こるから、コマンドが欲しい。 jq コマンド スキーマ文字列を取得 $ bq show --format prettyjson <既存のBQのテーブル名> | jq -r '.schema[] | map(.nam…
前回はこちら nakano-tomofumi.hatenablog.com Optim の仕様変更への対応 問題のエラーは、次のようなもの julia> optimize!(gp) ERROR: MethodError: no method matching set_params!(::GaussianProcesses.GP, ::Float64; noise=true, mean=true, kern=true…
背景 連続腕バンディット(それもトンプソンサンプリング)をやってみようと思った。 ベルヌーイ分布のトンプソンサンプリングは、ベータ分布の乱数生成だけが肝だが、ライブラリを使ったり、最悪Cの関数を参考にしながら自分で実装すれば特に問題はない。 …
背景 証明書写真を印刷したい。1mm もサイズが違わないように印刷したい。 結論 mac の gimp から印刷はうまくいかない。一旦、jpeg にして、jpeg を mac の previewer で詳細な印刷設定をしてうまくいく。 印刷前までの方法 ほぼ、下記の通り fanblogs.jp …
背景 ad fraud を追う間に、「トラフィックエクスチェンジ」というサービスを知ることになった。 トラフィックエクスチェンジとは、サイト間でユーザを交換しようという試みである。 まだ検索エンジンがあまり発展していなかった時代などは、サイト間のリン…
背景 仕事でどうしても必要になった(嘘) Wilson score interval で計算する。 早速だけど、下記の式を使ってみよう。 nakano-tomofumi.hatenablog.com 今回は、p = 0.05 で求める。標準正規分布の分位数はZ=1.96となる。 よって、 UCB: (29+1.96*1.96/2+1.…
背景 BigQuery で特定のテーブルをワイルドカードで指定して削除したいことがある。ところが、CLIコマンドである bq はそのようなワイルドカード指定はできない。 データセットのファイル一覧を出して、それを egrep で抽出する 下記の <dataset_name> と、<regular expression> にそれぞれ、デ</regular></dataset_name>…
症状 次の論文をchromeでダウンロードして、 https://openreview.net/pdf?id=BkJsCIcgl mail で kindle に送信すると次のようなエラーメールが届く 2017年6月19日(月) 午前 09:59(JST) に送信された以下のドキュメントは、指定されたKindle に送信できません…