中野智文のブログ

データ・マエショリスト(※データ・マエストロではない)のメモ

Airflow をおすすめしない理由

これまでずっと airflow と格闘してきたが(下記参照)

nakano-tomofumi.hatenablog.com

ここで一旦まとめることにする。

Airflow をおすすめしない理由

【致命的】Scheduler がコケる。

タスクは別プロセスで実行されるが、スケジュールもコードで書いてあるためそれを読み込む必要がある。そこで不具合(例えば日本語のコメントなど)があるとコケる。

重複実行されてしまう。

同じタスクIDでも別のDAG IDだと別のタスクとみなされるため、同じジョブが実行されてしまう。

ドキュメントがしっかりしていない。

DAGが paused のことがあったが、そのような話はどこにもなかった。また設定ファイルの重要な項目の説明は、設定ファイル中のコメントに書いてあるだけだったりする。

エラーの出力がしっかりしていない。

何か問題があったときでも、何が原因なのかが分からない。例えば SQLalchemy の一般的なエラーでてもなんの問題か分からない。 その原因を知るためには変数の中身を出力するデバッグコードを埋め込んだりする必要があった。