profiling-tables
特定のテーブルに対して詳細なデータプロファイリングを実行します。ユーザーがテーブルのプロファイリング、データセットの統計情報、データ品質の確認、またはテーブルの構造や内容の把握を求めた際に使用します。テーブル名が必要です。
description の原文を見る
Deep-dive data profiling for a specific table. Use when the user asks to profile a table, wants statistics about a dataset, asks about data quality, or needs to understand a table's structure and content. Requires a table name.
SKILL.md 本文
Data Profile
新しいチームメンバーがデータを理解するために使用できる、テーブルの包括的なプロファイルを生成します。
ステップ 1: 基本メタデータ
カラムメタデータをクエリします:
SELECT COLUMN_NAME, DATA_TYPE, COMMENT
FROM <database>.INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_SCHEMA = '<schema>' AND TABLE_NAME = '<table>'
ORDER BY ORDINAL_POSITION
テーブル名が完全修飾されていない場合は、まず INFORMATION_SCHEMA.TABLES を検索してテーブルを特定してください。
ステップ 2: サイズと形状
run_sql 経由で実行します:
SELECT
COUNT(*) as total_rows,
COUNT(*) / 1000000.0 as millions_of_rows
FROM <table>
ステップ 3: カラムレベルの統計
各カラムについて、データ型に基づいて適切な統計を収集します:
数値カラム
SELECT
MIN(column_name) as min_val,
MAX(column_name) as max_val,
AVG(column_name) as avg_val,
STDDEV(column_name) as std_dev,
PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column_name) as median,
SUM(CASE WHEN column_name IS NULL THEN 1 ELSE 0 END) as null_count,
COUNT(DISTINCT column_name) as distinct_count
FROM <table>
文字列カラム
SELECT
MIN(LEN(column_name)) as min_length,
MAX(LEN(column_name)) as max_length,
AVG(LEN(column_name)) as avg_length,
SUM(CASE WHEN column_name IS NULL OR column_name = '' THEN 1 ELSE 0 END) as empty_count,
COUNT(DISTINCT column_name) as distinct_count
FROM <table>
日付/タイムスタンプカラム
SELECT
MIN(column_name) as earliest,
MAX(column_name) as latest,
DATEDIFF('day', MIN(column_name), MAX(column_name)) as date_range_days,
SUM(CASE WHEN column_name IS NULL THEN 1 ELSE 0 END) as null_count
FROM <table>
ステップ 4: カーディナリティ分析
カテゴリ/ディメンションキーのように見えるカラムについて:
SELECT
column_name,
COUNT(*) as frequency,
ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER(), 2) as percentage
FROM <table>
GROUP BY column_name
ORDER BY frequency DESC
LIMIT 20
これにより以下が明らかになります:
- 高いカーディナリティを持つカラム (ID や一意の値の可能性)
- 低いカーディナリティを持つカラム (カテゴリまたはステータスフィールドの可能性)
- 歪んだ分布 (1 つの値が支配的)
ステップ 5: サンプルデータ
代表的な行を取得します:
SELECT *
FROM <table>
LIMIT 10
テーブルが大きい場合で多様性を求める場合は、異なる時間帯またはカテゴリからサンプルを取得してください。
ステップ 6: データ品質評価
複数の観点からデータ品質を評価します:
完全性
- どのカラムに NULL がありますか? パーセンテージはいくつですか?
- NULL は予想されているものか、問題のあるものか?
一意性
- 見かけ上の主キーに重複がありますか?
- 予期しない重複行がありますか?
新鮮度
- データは最後いつ更新されましたか? (タイムスタンプカラムの MAX)
- 更新頻度は予想通りですか?
妥当性
- 期待される範囲外の値がありますか?
- 無効な形式 (日付、メールなど) がありますか?
- 孤立した外部キーがありますか?
一貫性
- 関連するカラムは一緒に意味をなしていますか?
- 論理的な矛盾がありますか?
ステップ 7: 出力サマリー
構造化されたプロファイルを提供します:
概要
このテーブルが何を含んでいるか、誰が使用しているか、どの程度新鮮かを説明する 2~3 文。
スキーマ
| カラム | 型 | NULL% | 個別値数 | 説明 |
|---|---|---|---|---|
| ... | ... | ... | ... | ... |
主要な統計
- 行数: X
- 日付範囲: Y から Z
- 最後に更新: タイムスタンプ
データ品質スコア
- 完全性: X/10
- 一意性: X/10
- 新鮮度: X/10
- 総合: X/10
潜在的な問題
発見されたデータ品質の懸念事項をリストアップします。
推奨クエリ
このデータに関する一般的な質問に対する 3~5 つの有用なクエリ。
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- astronomer
- リポジトリ
- astronomer/agents
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。