tracing-upstream-lineage
データの上流リネージュを追跡します。データがどこから来ているか、特定のテーブルに何がデータを供給しているか、上流の依存関係やデータソースを把握したい場合、またはデータの起源を理解する必要がある場合に使用します。
description の原文を見る
Trace upstream data lineage. Use when the user asks where data comes from, what feeds a table, upstream dependencies, data sources, or needs to understand data origins.
SKILL.md 本文
上流の系統: ソース
データの起源を追跡する - 「このデータはどこから来ているのか?」に答える
系統調査
ステップ 1: ターゲットタイプの特定
何を追跡するのかを決定する:
- テーブル: このテーブルに何がデータを入力しているかを追跡する
- 列: この特定の列がどこから来ているかを追跡する
- DAG: このDAGが何のデータソースから読み込んでいるかを追跡する
ステップ 2: 作成DAGを見つける
テーブルは通常、Airflow DAGによって入力されます。接続を見つけます:
-
DAGを名前で検索:
af dags listを使用して、テーブル名に一致するDAG名を探すload_customers->customersテーブルetl_daily_orders->ordersテーブル
-
DAGソースコードを確認:
af dags source <dag_id>を使用してDAG定義を読む- INSERT、MERGE、CREATE TABLE ステートメントを探す
- コード内のターゲットテーブルを見つける
-
DAGタスクをチェック:
af tasks list <dag_id>を使用してDAGが実行する操作を確認する
Astro上
Astro上で実行している場合、Astro UIのLineageタブはDAGとデータセット全体の視覚的系統探索を提供します。DAGソースコードを手動で検索しなくても、上流の依存関係を素早く追跡するために使用します。
OSS Airflow上
DAGソースコードとタスクログを使用して系統を追跡する(組み込みのクロスDAG UIはない)。
ステップ 3: データソースを追跡
DAGコードから、ソーステーブルとシステムを特定する:
SQLソース (FROM句を探す):
# DAGコード内:
SELECT * FROM source_schema.source_table # <- これが上流ソース
外部ソース (接続参照を探す):
S3Operator-> S3バケットソースPostgresOperator-> PostgreSQLデータベースソースSalesforceOperator-> Salesforce APIソースHttpOperator-> REST APIソース
ファイルソース:
- オブジェクトストレージ内のCSV/Parquetファイル
- SFTPドロップ
- ローカルファイルパス
ステップ 4: 系統チェーンを構築
各ソースを再帰的に追跡:
ターゲット: analytics.orders_daily
^
+-- DAG: etl_daily_orders
^
+-- ソース: raw.orders (テーブル)
| ^
| +-- DAG: ingest_orders
| ^
| +-- ソース: Salesforce API (外部)
|
+-- ソース: dim.customers (テーブル)
^
+-- DAG: load_customers
^
+-- ソース: PostgreSQL (外部DB)
ステップ 5: ソースの健全性をチェック
各上流ソースについて:
- テーブル: checking-freshness スキルで新鮮さをチェックする
- DAG:
af dags statsで最近の実行ステータスをチェックする - 外部システム: DAGコードから接続情報を記録する
列の系統
特定の列を追跡する場合:
- ターゲットテーブルのスキーマで列を見つける
- DAGソースコードでその列名への参照を検索する
- 変換を追跡する:
- 直接マッピング:
source.col AS target_col - 変換:
COALESCE(a.col, b.col) AS target_col - 集計:
SUM(detail.amount) AS total_amount
- 直接マッピング:
出力: 系統レポート
サマリー
1行の答え: 「このテーブルはDAG Xによってソース Y と Z から入力されている」
系統図
[Salesforce] --> [raw.opportunities] --> [stg.opportunities] --> [fct.sales]
| |
DAG: ingest_sfdc DAG: transform_sales
ソース詳細
| ソース | タイプ | 接続 | 新鮮さ | 所有者 |
|---|---|---|---|---|
| raw.orders | テーブル | 内部 | 2時間前 | data-team |
| Salesforce | API | salesforce_conn | リアルタイム | sales-ops |
変換チェーン
データがどのように流れて変換されるかを説明する:
- 生データがSalesforce API同期を介して
raw.ordersに到着 - DAG
transform_ordersがクリーニングと重複排除をstg.ordersに実行 - DAG
build_order_factsが次元と結合してfct.ordersに実行
データ品質の影響
- 単一障害点はないか?
- 古い上流ソースはないか?
- 破損する可能性のある複雑な変換チェーンはないか?
関連スキル
- ソースの新鮮さをチェック: checking-freshness スキル
- ソースDAGをデバッグ: debugging-dags スキル
- 下流への影響を追跡: tracing-downstream-lineage スキル
- 手動系統注釈を追加: annotating-task-lineage スキル
- カスタム系統エクストラクタを構築: creating-openlineage-extractors スキル
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- astronomer
- リポジトリ
- astronomer/agents
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。