読者です 読者をやめる 読者になる 読者になる

nakano-tomofumiのブログ

データマエショリストのメモ

luigi と格闘中

背景 luigi と airflow と make を比較している。 luigi と格闘中 big query のクエリを書き換えたので再実行 あれ? 再実行されない。 ズバリな記事が見つかる。 datapipelinearchitect.com なるほど…。というか、removing all intermediate and final outp…

Wilson score interval を使う。

背景 以前、 blog.goo.ne.jp にて、Wilson score interval with continuity correction の式のテンプレートを書いたが、本当は外側に条件分岐 if が必要だったり、判別式の中が負になることもあったりと、ちょっと注意して使う必要があった(おいおい)。ち…

airflow と格闘中 (11)

まだまだ pysqlite2 がない apt-get install sqlite3-dev pip install pysqlite click がない? 次のエラー [2017-05-15 10:12:53,877] {__init__.py:57} INFO - Using executor SequentialExecutor Traceback (most recent call last): .... File "/xxxxxxx…

gdrive の import ができなくなった。

背景 もともと、 github.com の問題に対応するため、パッチを作った(つもりだった)。 症状 別環境で試すことになったので、もう一度 build してみると、なんと動かなくなっているんだよね。 (すなわち issue の状態) 調査 バックアップ とりあえず、現行…

airflow と格闘中(10)

vm上で install しようとするも、numpy のコンパイルらしきものが始まる え? 次のような記事が見つかる… kounoike.github.io とりあえず、上記のようにしてもうまくいかない。(仮想環境の違いはあるだろう。) そこで、numpy をインストール。 pip install…

vagrant の Synced Folders で gest 側は強制的にディレクトリが作成される

これを抑制するオプションはなさそう。 www.vagrantup.com

airflow と格闘中(9)

いやーもう本当に終わりにしたい。 バグも治ったので、trigger_dag に再挑戦 [2017-05-09 17:52:00,076] {models.py:3414} DagFileProcessor0 INFO - Creating ORM DAG for xxxxxx /usr/local/lib/python2.7/site-packages/sqlalchemy/sql/default_comparato…

airflow と格闘中(8)

GWも明けたが、先週に引き続き、会社のノートPCを交換中。なので更新遅め。 backfill に戻したら、BackfillJob is deadlocked. うーむ。。。 trigger にするために終了を確認するファイルを touch していたのだが、そこで発生しているらしい。該当のエラーロ…

airflow と格闘中(7)

結局 trigger_dag によって未だに成功はしていない。 trigger_dag はDAG(タスク)の終了までコマンドを待たない さらに大事なことに気がついた。luigi の実行では、その実行コマンドがタスクが全て完了するまで待つことになるが、 airflow では、 trigger_d…

Airflow と格闘中(6)

皆様に置きましてはGW中かもしれませんが、小学生を持つ親は、小学校が休みでない以上、普通に出勤となります。 scheduler が正解。 というかドキュメントは最後まで読もう。scheduler を起動しておいて、 trigger_dag で実行。 これが makefile に近い。 次…

Airflow と格闘中(5)

今日で終わりにしたい。 airflow のコマンドを調べる render タスクの実行内容を表示する。BashOperator なら test -dr とほぼ同等。 trigger_dags DAG の実行のトリガーを引く。求めていた機能の可能性。 -e オプションで日付指定できるが、既に ‘backfill’…

Airflow と格闘中(4)

多重実行は同時実行も完了タスクの実行もされちゃう backfill であるからか、普通に多重実行はされてしまう。多重実行と言っても、同時に実行と、既に完了したタスクの実行の二種類があると思うが、両方共実行されてしまう。 このままだと、タスクが途中でエ…

AirFlow と格闘中(3)

前回からの続き run で確認し、backfill で全体確認する Makefile から呼び出す想定だと(スケジューラであるはずの AirFlow をそのような形で呼び出すこと自体おかしいという話もあるが、まずは移行から始まるので…)、コマンドは、 run か backfill になる…

AirFlow と格闘中(2)

前回からの続き upstream と downstream の違い upstream と downstream の違いが分からないわけではないが、両側から設定できるのは何の意味があるのか。 特に書いてないから、気になるは気になる…。(おそらくどっちでもいい) BashOperator のカレントデ…

Airflow と格闘中

背景 luigi と airflow の使い勝手を比較したい。 現在は Makefile で ruby のワンライナーで日付を生成して xargs で make を呼んだりしている。 作業 luigi airflow と比べるとすんなりできた。 airflow 以下にハマったところを書く。 自動生成されたファ…