中野智文のブログ

データ・マエショリストのメモ

luigi で resources を使ってリソース毎に同時実行数を制限する

背景 luigi は同時 workers オプションで同時 worker 数を制限できるが、CPU的には同時に16走っても問題ないが、DB的には一つしか接続したくない、という要望がある。 対応 resources を使う。 リソース毎の worker 数の設定と、それぞれのタスクがどれほど…

s3上のgzip圧縮されたファイルの中身をイテレータで取得する

背景 s3上のgzip圧縮されたファイルの中身をイテレータで取得する方法がなかなか見つからない。 コード import boto3 import tempfile import gzip import datetime as dt from typing import Iterator def s3_gz_cat(bucket: str, prefix='') -> Iterator[b…

BigTable は東京リージョンでも使える!

背景 bigtable が東京リージョンでは使えないみたいな話が古い記事で見つかったりする。 GCPで東京リージョンにて使えるサービス&使えないサービス一覧|apps-gcp.com|G Suite(旧:Google Apps) やGoogle Cloud Platform サービスについて紹介します 本…

numpy array を aws s3 に格納する。

背景 jupyter notebook を使っていて、データをローカルのファイルシステムに保存するようにしていると、 環境が変わったときにそのデータまで一緒に持ってこないといけないが、これは jupyter の利便性を失う一つの要因となる。 例えば github でjupyter no…

ImportError: No module named '_tkinter' が出た場合

背景 毎回見る次のエラー ImportError: No module named '_tkinter' の対応だが、OSや python のバージョンにより対応が異なるので、メモする。 解決法 ubuntu (on Windows) の python3 の場合 sudo apt install python3-tk

Windows 用 github ツールにて、the repository does not seem to exist anymore

背景 Windows 用 github ツールで、次のようなエラーが出た。 the repository does not seem to exist anymore you may not have access or it may have been deleted or renamed もちろん、そのようなリポジトリは実際存在する。 なぜか? 原因と解決 自分…

Windows10 に WSL を入れようとして、The term 'Enable-WindowsOptionalFeature' is not recognized …

背景 Windows 10 に WSL を入れようとして、 PS C:\Program Files\PowerShell\6.0.2> Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux Enable-WindowsOptionalFeature : The term 'Enable-WindowsOptionalFeature' i…

東京以外のおすすめAWSリージョン

背景 東京リージョンは応答時間は早いけど、応答時間がどうでもいいなら、もっと安いリージョンがいい。 もう少し欲を言うと、AWSの最新のサービスが利用できるところがいい。 さらに欲を言うと、それでも応答時間が早いほうがいい。 リージョン比較 料金 最…

Windows PowerShell の OpenSSH でパスワードを正しく入れてもログインできない。

背景 Windows PowerShell の OpenSSH でパスワードを正しく入れてもログインできない。 原因 -v オプションをつけることで原因を見つけることができた。 read_passphrase: can't open /dev/tty: No such file or directory 入力を ' /dev/tty' から取ろうと…

AWSのMFAが灰色で有効にできない→一応解決

背景 AWSの「MFAの管理」が灰色で有効にできない。なぜなのか? 解決 灰色で有効にできない謎は未解決だが、一応できたのでメモ。 同じページのIAM リソース のユーザーをクリック。 自分の名前を見つけ出しクリック。 認証情報のタブをクリック。 すると、M…

BigQuery で base64 から uuid の形式へ変換する

背景 BigQuery で base64 から uuid への変換をUDFを使って行おうと思ったのでメモ。 経緯 atob さえあればそれほど大変ではないはず。ところが、 Google Developers Blog: Breaking the SQL Barrier: Google BigQuery User-Defined Functions によると、 No…

BigQuery の standard sql にも ROLLUP はあるよ

背景 上手いこと使うと、全体の合計と、group で指定したそれぞれの合計が同時に取得できる rollup だが、日本語のBQの標準SQLのページには記載がない(2018/03/20現在) 具体的には次のような感じ 解決法 次のように言語の設定を英語にしよう。 すると group …

データ解析のためのロジスティック回帰モデルを少し読んだ

背景 前から欲しかった本がある。Applied Logistic Regression 3rd Edition であるが、ご覧の通り、ハードカバーで1万6千円、Kindle 版でも1万円してしまう。 まず、Logistic Regression(ロジスティック回帰)であるが、深層学習ほど最新の研究成果があるわ…

Jupyter notebook (Python3) で mypy のチェックを行う

背景 python3 で導入された型ヒントだが、そのままだと静的にも動的にもアノテーション(単なるコメント)として扱われるらしく、ちょっと残念。 mypy というコマンドで型チェックを行ってくれるらしい。Jupyter notebook 上でも実行したい。 対応 mypy をイ…

「被害者が犯行可能な人を犯人の候補」とするWald法

背景 二項分布やベルヌーイ試行の確率の信頼区間を求める方法として、Wald法というものがある。 非常に気持ち悪いと思うのだが、まだ多くの人がその気持ち悪さを理解していないと思うので、自分の力不足を感じながらも書いた。 Wald 法 正規分布は のとき、…

mac が重くてたまに熱か何かで落ちたのでその時のメモ

背景 mac が重くてたまに熱か何かで落ちる。vagrant で動いているものがあるので、それが原因かと思ったが、 top で確認すると、mds_stores というプロセスが動いていた。 対応 下記のページを参考にしようとした。 blog.tottokug.com ところが、 sudo locat…

正規分布の分位点関数(パーセント点関数)の近似

背景 正規分布の分位点(パーセント点)は数値計算ライブラリの分位点関数を使えば簡単に求められる。 例えば、python だと、scipy.stats.norm の、ppt だ。 ところが、SQL には標準でないようである。 自分で関数を作ってもいいが、ここはSQLでかける近似式…

scikit learn の Kfold, StratifiedKFold, ShuffleSplit の違い

背景 scikit learn の cross validation にて、テスト事例の分割方法に Kfold, StratifiedKFold, ShuffleSplit, StratifiedShuffleSplit というのがある(他にもある)。 その違いがわかりにくい。 Kfold と StratifiedKFold の違い Kfold は知っているとい…

scikit learn の GridSearchCV で検証事例に class_weight(sample_weight) をつける

背景 GridSearchCV で検証事例に sample_weight をつけるような引数はまだ存在しない。 github.com でも使いたい。(使わないとうまく行かねー) metrics 関数自体は sample_weight に対応しているんだよね〜。 対応 対応した metrics 関数をつくり、make_sc…

正規分布の分位数(標準正規分布)を python で求める

背景 あの Z=1.96 などの数値は、正規分布の分位数とか、分位点とか、パーセントを使っている場合には、パーセント点とか、百分位点とか、パーセンタイル とかよばれる。 さてこの正規分布の分位数であるが、計算環境が十分でない状況では標準正規分布表とい…

ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument. というエラー

背景 GridSearchCV をすると、 ValueError: y_true contains only one label (0). Please provide the true labels explicitly through the labels argument. というようなエラーに遭遇することがある。 これは「評価用のデータに1つの正解ラベルしか含まれ…

iOS のUU数を調べる

背景 クッキーが全て取得できない場合でも UU 数を知りたい。 iPhone などのiOSのブラウザでは第三者クッキー(別ドメインのクッキー)が焼けないようになっている。 これは、広告を運用する上では非常に大きな問題である。 なぜなら広告のドメインは広告が…

ある確率未満であることを確認するのに必要なサンプルサイズ

背景 ある確率未満であることを確認するのに、どれだけサンプルサイズが必要だろうか。 例えば、0.5% 以上のクリック率(CTR)の広告枠にしか広告を出したくないという話を考えよう。 一度その広告枠に広告を出せば、0.5% 未満であること自体は信頼上限の計…

scikit learn の 確率推定のクラスの順序はソートされている。※ただしバイナリクラスの重みは…

背景 liblinear libsvm の重みや、確率推定の配列は、訓練データのクラスラベルの出現順で、決まるという恐ろしい仕様。 出現順というのは、1行目の事例のほうが2行目の事例より前、という出現順。 もちろん学習後、その順序が参照できるように、モデルの出…

Logistic Regression における Negative Down Sampling

negative down sampling をしたときの logistic regression の最適な方法・設定を調べる。 結論としては、negative down sampling をする前に、 を平均から求める( )。それを対数化すれば切片の重みとなる( )。negative down sampling 後のデータは class_we…

小標本における正規分布の信頼区間を Excel で求める

背景 コイン投げのようなベルヌーイ試行の確率の信頼区間は Wilson score interval を使う。 - 中野智文のブログ でいいとして、母集団が正規分布で小標本の場合は、 t 分布で求めるのが、一般的である。 母集団が正規分布に従うときで標本の大きさ(サンプ…

scikit learn で cross validation で confusion matrix を取得する。

背景 confusion matrix を取得する場合は、一部の例だけでなく cross validation で全ての事例に対して取得したい。 対応 sklearn.model_selection.cross_val_predict を使う。 例 今回は iris のデータを使う。当たり前だが、confusion matrix は普通分類問…

scikit learn で DataFrameから色々なスパースな型に変換して学習

背景 scikit learn で学習しようとすると、メモリーを使い尽くす。 色々なスパースな型に変換して学習 準備 まず、データは次のものを利用。 measurements = [ {'city': 'Dubai', 'temperature': 31.0, 'country': 'U.A.E.'}, {'city': 'London', 'country':…

oom killer に python を優先的に狙わせるワンライナー

EC2 のマシンなどで、jupyter notebook で python カーネルを起動した後、次のコマンドを実行 pgrep python | xargs -l1 -I{} sh -c 'echo +15 > /proc/{}/oom_score_adj' 原理的には、python 以外のカーネルでもOKなはず。 追記 2017/11/07 /proc/23715/oom…

sklearn の DictVectorizer を使って学習して再び重みを dict 形式にする

背景 sklearn のライブラリに、学習データがdict の配列のときに、sklearn で使えるスパース(疎)な形式に変換する DictVectorizer がある。 この DictVectorizer の説明を見ると、たしかに色々な形式に変換できるようではあるが、実際にどのような形式に変…