tracing-downstream-lineage
テーブルやDAGの変更が下流のどのデータやシステムに影響を与えるかを追跡し、影響範囲を分析します。「このデータに依存しているものは何か」「変更すると何が壊れるか」「下流の依存関係を確認したい」など、変更前のリスク評価が必要な場合に使用します。
description の原文を見る
Trace downstream data lineage and impact analysis. Use when the user asks what depends on this data, what breaks if something changes, downstream dependencies, or needs to assess change risk before modifying a table or DAG.
SKILL.md 本文
ダウンストリーム系統: インパクト分析
重大な質問に答えます:「これを変更したら何が壊れるか?」
変更を加える前に使用して、影響範囲を理解します。
インパクト分析
ステップ1:直接コンシューマーの特定
このターゲットから読み取るすべてを見つけます:
テーブルの場合:
-
DAGソースコードを検索:このテーブルからSELECTするDAGを探す
af dags listを使用して全DAGを取得af dags source <dag_id>を使用してテーブル参照を検索- 以下を探す:
FROM target_table,JOIN target_table
-
依存ビューを確認:
-- Snowflake SELECT * FROM information_schema.view_table_usage WHERE table_name = '<target_table>' -- または SHOW VIEWS で定義を検索 -
BIツール接続を確認:
- ダッシュボードはしばしばテーブルを直接クエリする
- テーブル命名の共通BIパターンを確認(rpt_, dashboard_)
Astro上での操作
Astro上で実行している場合、Astro UIのLineageタブはDAGとデータセット間の視覚的依存グラフを提供し、ダウンストリームインパクト分析をより迅速にします。特定のデータセットを消費するDAGとその現在のステータスを表示し、手動ソースコード検索の必要性を減らします。
DAGの場合:
- DAGが生成するものを確認:
af dags source <dag_id>を使用して出力テーブルを見つける - その後、それらのテーブルのコンシューマーを追跡(再帰的)
ステップ2:依存関係ツリーを構築
完全なダウンストリームインパクトをマッピングします:
SOURCE: fct.orders
|
+-- TABLE: agg.daily_sales --> Dashboard: Executive KPIs
| |
| +-- TABLE: rpt.monthly_summary --> Email: Monthly Report
|
+-- TABLE: ml.order_features --> Model: Demand Forecasting
|
+-- DIRECT: Looker Dashboard "Sales Overview"
ステップ3:重要度別に分類
Critical(本番を壊す):
- 本番ダッシュボード
- 顧客向けアプリケーション
- 経営層への自動レポート
- 本番環境のMLモデル
- 規制/コンプライアンスレポート
High(著しい問題を引き起こす):
- 内部運用ダッシュボード
- アナリストワークフロー
- データサイエンス実験
- ダウンストリームETLジョブ
Medium(不便):
- アドホック分析テーブル
- 開発/ステージングコピー
- 履歴アーカイブ
Low(最小限の影響):
- 非推奨テーブル
- 未使用データセット
- テストデータ
ステップ4:変更リスクを評価
提案される変更について、以下を評価します:
スキーマの変更(列の追加/削除/名前変更):
- ダウンストリームクエリのどれが壊れるか?
- SELECT * パターンは新しい列を取得するか?
- どの変換が変更列を参照しているか?
データの変更(値、ボリューム、タイミング):
- ダウンストリーム集計はまだ有効か?
- NULL処理の仮定が壊れるか?
- タイミング変更はSLAに影響するか?
削除/非推奨化:
- 完全な依存関係ツリーを最初に移行する必要がある
- すべてのステークホルダーへのコミュニケーション必要
ステップ5:ステークホルダーを見つける
ダウンストリーム資産の所有者を特定します:
- DAG所有者:DAG定義の
ownersフィールドを確認 - ダッシュボード所有者:通常、BIツールのメタデータに記載
- チーム所有権:チーム命名パターンまたはドキュメントを探す
アウトプット:インパクトレポート
サマリー
"fct.orders を変更すると、X個のテーブル、Y個のDAG、Z個のダッシュボードに影響します"
インパクト図
+--> [agg.daily_sales] --> [Executive Dashboard]
|
[fct.orders] -------+--> [rpt.order_details] --> [Ops Team Email]
|
+--> [ml.features] --> [Demand Model]
詳細なインパクト
| ダウンストリーム | タイプ | 重要度 | 所有者 | 備考 |
|---|---|---|---|---|
| agg.daily_sales | Table | Critical | data-eng | 毎時更新 |
| Executive Dashboard | Dashboard | Critical | analytics | CEO が毎日表示 |
| ml.order_features | Table | High | ml-team | 毎週再トレーニング |
リスク評価
| 変更タイプ | リスクレベル | 対策 |
|---|---|---|
| 列を追加 | Low | アクション不要 |
| 列を名前変更 | High | 3つのDAG、2つのダッシュボードを更新 |
| 列を削除 | Critical | 完全な移行計画が必要 |
| データ型を変更 | Medium | ダウンストリーム集計をテスト |
推奨アクション
変更を加える前に:
- 所有者に通知:@data-eng, @analytics, @ml-team
- ダウンストリームDAGを更新:
transform_daily_sales - ダッシュボードをテスト:Executive KPIs
- 低インパクト時間帯に変更をスケジュール
関連スキル
- データがどこから来るかを追跡:tracing-upstream-lineage スキル
- ダウンストリーム鮮度を確認:checking-freshness スキル
- 壊れたDAGをデバッグ:debugging-dags スキル
- 手動系統アノテーションを追加:annotating-task-lineage スキル
- カスタム系統エクストラクタを構築:creating-openlineage-extractors スキル
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- astronomer
- リポジトリ
- astronomer/agents
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。