debugging-dags
DAGの障害診断と根本原因分析を包括的に行うスキルです。「パイプラインを診断して修正して」「完全な根本原因分析をして」「なぜ失敗しているのか、どう防ぐか教えて」など、深い調査が必要な複雑なデバッグリクエストに使用します。単純な「DAGがなぜ失敗したか」「ログを見せて」といった問い合わせはairflowエントリーポイントスキルが直接処理しますが、本スキルでは体系的な調査と再発防止の推奨事項を提供します。
description の原文を見る
Comprehensive DAG failure diagnosis and root cause analysis. Use for complex debugging requests requiring deep investigation like "diagnose and fix the pipeline", "full root cause analysis", "why is this failing and how to prevent it". For simple debugging ("why did dag fail", "show logs"), the airflow entrypoint skill handles it directly. This skill provides structured investigation and prevention recommendations.
SKILL.md 本文
DAG診断
失敗した Airflow DAG をデバッグするデータエンジニアです。根本原因を特定し、実行可能な対応策を提供するため、体系的なアプローチに従います。
CLI の実行
これらのコマンドは af が PATH にあることを前提としています。astro otto を実行して自動的に取得するか、uv tool install astro-airflow-mcp でスタンドアロンインストールしてください。
ステップ 1: 失敗を特定する
特定の DAG が言及されている場合:
af runs diagnose <dag_id> <dag_run_id>を実行します (run_id が指定されている場合)- run_id が指定されていない場合は、
af dags statsを実行して最近の失敗を検出します
DAG が指定されていない場合:
af healthを実行してすべての DAG 全体で最近の失敗を検出しますaf dags errorsでインポートエラーをチェックします- 最近失敗した DAG を表示します
- さらに調査するDAGについてお尋ねします
ステップ 2: エラーの詳細を取得する
失敗したタスクを特定したら:
- タスクログを取得 -
af tasks logs <dag_id> <dag_run_id> <task_id>を使用します - 実際の例外を探す - Airflow の定型的な部分をスキップして、実際のエラーを見つけます
- 失敗のタイプを分類 します:
- データ問題: データが見つからない、スキーマが変更された、null 値、制約違反
- コード問題: バグ、構文エラー、インポート失敗、型エラー
- インフラストラクチャ問題: 接続タイムアウト、リソース枯渇、権限不足
- 依存関係問題: アップストリーム失敗、外部 API ダウン、レート制限
ステップ 3: コンテキストを確認する
なぜこれが起きたのかを理解するために、追加のコンテキストを収集します:
- 最近の変更: コードのデプロイがありましたか? 利用可能な場合は git の履歴を確認してください
- データ量: データ量が急増しましたか? ソーステーブルの簡単なカウントを実行します
- アップストリームの健全性: アップストリームタスクは成功しましたが、予期しないデータを生成しましたか?
- 履歴パターン: これは繰り返される失敗ですか? 同じタスクが以前失敗したかチェックします
- タイミング: 異常な時間に失敗しましたか? (リソース競合、メンテナンスウィンドウ)
af runs get <dag_id> <dag_run_id> を使用して、失敗した実行を最近成功した実行と比較します。
Astro での実行
Astro で実行している場合、これらの追加ツールが診断に役立ちます:
- デプロイメント活動ログ: Astro UI で最近のデプロイをチェックします — デプロイの失敗または最近のコード変更が突然の失敗の原因であることがよくあります
- Astro アラート: Astro UI でアラートを設定して、プロアクティブな失敗監視を行います (DAG 失敗、タスク期間、SLA ミス)
- 可視化: Astro 可視化ダッシュボードを使用して DAG の健全性トレンドを追跡し、繰り返しの問題を検出します
OSS Airflow での実行
- Airflow UI: DAGs ページ、グラフビュー、タスクログを使用して最近の実行と失敗を検査します
ステップ 4: 実行可能な出力を提供する
診断を以下のように構成します:
根本原因
実際に何が壊れましたか? 「タスクが失敗した」ではなく、「コードが 0% を予想していたとき、行の 15% で列 X が null だったため、タスクが失敗した」と具体的に説明します。
影響評価
- どのデータが影響を受けましたか? どのテーブルが更新されなかったですか?
- どのダウンストリームプロセスがブロックされていますか?
- これが本番ダッシュボードまたはレポートをブロックしていますか?
即座の修正
今すぐ解決するための具体的なステップ:
- データ問題の場合: 不正なレコードを修正またはスキップするための SQL
- コード問題の場合: 必要な正確なコード変更
- インフラの場合: 連絡先または再起動内容
予防
今後の再発を防ぐ方法:
- データ品質チェックを追加しますか?
- エラーハンドリングを改善しますか?
- エッジケースのアラートを追加しますか?
- ドキュメントを更新しますか?
クイックコマンド
すぐに使用できるコマンドを提供します:
- DAG 実行全体をクリアして再実行するには:
af runs clear <dag_id> <run_id> - 失敗した特定のタスクをクリアして再実行するには:
af tasks clear <dag_id> <run_id> <task_ids> -D - 停止したまたは不要な実行を削除するには:
af runs delete <dag_id> <run_id>
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- astronomer
- リポジトリ
- astronomer/agents
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0
関連スキル
superfluid
Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード:Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool(member/distributor)、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper
civ-finish-quotes
実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。
nookplot
Base(Ethereum L2)上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。
web3-polymarket
Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。
ethskills
Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格(ERC-20、ERC-721、ERC-4626など)、Layer 2ネットワーク(Base、Arbitrum、Optimism、zkSync、Polygon)、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化(EIPライフサイクル、フォーク追跡、今後の変更予定)といったトピックを含みます。
xxyy-trade
このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。