Agent Skills by ALSEL
Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

tracing-upstream-lineage

データの上流リネージュを追跡します。データがどこから来ているか、特定のテーブルに何がデータを供給しているか、上流の依存関係やデータソースを把握したい場合、またはデータの起源を理解する必要がある場合に使用します。

description の原文を見る

Trace upstream data lineage. Use when the user asks where data comes from, what feeds a table, upstream dependencies, data sources, or needs to understand data origins.

SKILL.md 本文

上流の系統: ソース

データの起源を追跡する - 「このデータはどこから来ているのか?」に答える

系統調査

ステップ 1: ターゲットタイプの特定

何を追跡するのかを決定する:

  • テーブル: このテーブルに何がデータを入力しているかを追跡する
  • : この特定の列がどこから来ているかを追跡する
  • DAG: このDAGが何のデータソースから読み込んでいるかを追跡する

ステップ 2: 作成DAGを見つける

テーブルは通常、Airflow DAGによって入力されます。接続を見つけます:

  1. DAGを名前で検索: af dags list を使用して、テーブル名に一致するDAG名を探す

    • load_customers -> customers テーブル
    • etl_daily_orders -> orders テーブル
  2. DAGソースコードを確認: af dags source <dag_id> を使用してDAG定義を読む

    • INSERT、MERGE、CREATE TABLE ステートメントを探す
    • コード内のターゲットテーブルを見つける
  3. DAGタスクをチェック: af tasks list <dag_id> を使用してDAGが実行する操作を確認する

Astro上

Astro上で実行している場合、Astro UIのLineageタブはDAGとデータセット全体の視覚的系統探索を提供します。DAGソースコードを手動で検索しなくても、上流の依存関係を素早く追跡するために使用します。

OSS Airflow上

DAGソースコードとタスクログを使用して系統を追跡する(組み込みのクロスDAG UIはない)。

ステップ 3: データソースを追跡

DAGコードから、ソーステーブルとシステムを特定する:

SQLソース (FROM句を探す):

# DAGコード内:
SELECT * FROM source_schema.source_table  # <- これが上流ソース

外部ソース (接続参照を探す):

  • S3Operator -> S3バケットソース
  • PostgresOperator -> PostgreSQLデータベースソース
  • SalesforceOperator -> Salesforce APIソース
  • HttpOperator -> REST APIソース

ファイルソース:

  • オブジェクトストレージ内のCSV/Parquetファイル
  • SFTPドロップ
  • ローカルファイルパス

ステップ 4: 系統チェーンを構築

各ソースを再帰的に追跡:

ターゲット: analytics.orders_daily
    ^
    +-- DAG: etl_daily_orders
            ^
            +-- ソース: raw.orders (テーブル)
            |       ^
            |       +-- DAG: ingest_orders
            |               ^
            |               +-- ソース: Salesforce API (外部)
            |
            +-- ソース: dim.customers (テーブル)
                    ^
                    +-- DAG: load_customers
                            ^
                            +-- ソース: PostgreSQL (外部DB)

ステップ 5: ソースの健全性をチェック

各上流ソースについて:

  • テーブル: checking-freshness スキルで新鮮さをチェックする
  • DAG: af dags stats で最近の実行ステータスをチェックする
  • 外部システム: DAGコードから接続情報を記録する

列の系統

特定の列を追跡する場合:

  1. ターゲットテーブルのスキーマで列を見つける
  2. DAGソースコードでその列名への参照を検索する
  3. 変換を追跡する:
    • 直接マッピング: source.col AS target_col
    • 変換: COALESCE(a.col, b.col) AS target_col
    • 集計: SUM(detail.amount) AS total_amount

出力: 系統レポート

サマリー

1行の答え: 「このテーブルはDAG Xによってソース Y と Z から入力されている」

系統図

[Salesforce] --> [raw.opportunities] --> [stg.opportunities] --> [fct.sales]
                        |                        |
                   DAG: ingest_sfdc         DAG: transform_sales

ソース詳細

ソースタイプ接続新鮮さ所有者
raw.ordersテーブル内部2時間前data-team
SalesforceAPIsalesforce_connリアルタイムsales-ops

変換チェーン

データがどのように流れて変換されるかを説明する:

  1. 生データがSalesforce API同期を介してraw.ordersに到着
  2. DAG transform_orders がクリーニングと重複排除をstg.ordersに実行
  3. DAG build_order_facts が次元と結合してfct.ordersに実行

データ品質の影響

  • 単一障害点はないか?
  • 古い上流ソースはないか?
  • 破損する可能性のある複雑な変換チェーンはないか?

関連スキル

  • ソースの新鮮さをチェック: checking-freshness スキル
  • ソースDAGをデバッグ: debugging-dags スキル
  • 下流への影響を追跡: tracing-downstream-lineage スキル
  • 手動系統注釈を追加: annotating-task-lineage スキル
  • カスタム系統エクストラクタを構築: creating-openlineage-extractors スキル

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
astronomer
リポジトリ
astronomer/agents
ライセンス
Apache-2.0
最終更新
不明

Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0

関連スキル

OpenAIデータ・分析⭐ リポ 1,451

hugging-face-trackio

Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。

by gradio-app
汎用データ・分析⭐ リポ 855

btc-bottom-model

ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。

by star23
Anthropic Claudeデータ・分析⭐ リポ 380

protein_solubility_optimization

タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。

by SpectrAI-Initiative
Anthropic Claudeデータ・分析⭐ リポ 1,743

research-lookup

Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。

by K-Dense-AI
Anthropic Claudeデータ・分析⭐ リポ 299

tree-formatting

ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。

by majiayu000
汎用データ・分析⭐ リポ 145

querying-indonesian-gov-data

インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。

by suryast
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: astronomer · astronomer/agents · ライセンス: Apache-2.0