Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

profiling-tables

Name: profiling-tables
Author: astronomer

特定のテーブルに対して詳細なデータプロファイリングを実行します。ユーザーがテーブルのプロファイリング、データセットの統計情報、データ品質の確認、またはテーブルの構造や内容の把握を求めた際に使用します。テーブル名が必要です。

description の原文を見る

Deep-dive data profiling for a specific table. Use when the user asks to profile a table, wants statistics about a dataset, asks about data quality, or needs to understand a table's structure and content. Requires a table name.

SKILL.md 本文

Data Profile

新しいチームメンバーがデータを理解するために使用できる、テーブルの包括的なプロファイルを生成します。

ステップ 1: 基本メタデータ

カラムメタデータをクエリします:

SELECT COLUMN_NAME, DATA_TYPE, COMMENT
FROM <database>.INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_SCHEMA = '<schema>' AND TABLE_NAME = '<table>'
ORDER BY ORDINAL_POSITION

テーブル名が完全修飾されていない場合は、まず INFORMATION_SCHEMA.TABLES を検索してテーブルを特定してください。

ステップ 2: サイズと形状

run_sql 経由で実行します:

SELECT
    COUNT(*) as total_rows,
    COUNT(*) / 1000000.0 as millions_of_rows
FROM <table>

ステップ 3: カラムレベルの統計

各カラムについて、データ型に基づいて適切な統計を収集します:

数値カラム

SELECT
    MIN(column_name) as min_val,
    MAX(column_name) as max_val,
    AVG(column_name) as avg_val,
    STDDEV(column_name) as std_dev,
    PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY column_name) as median,
    SUM(CASE WHEN column_name IS NULL THEN 1 ELSE 0 END) as null_count,
    COUNT(DISTINCT column_name) as distinct_count
FROM <table>

文字列カラム

SELECT
    MIN(LEN(column_name)) as min_length,
    MAX(LEN(column_name)) as max_length,
    AVG(LEN(column_name)) as avg_length,
    SUM(CASE WHEN column_name IS NULL OR column_name = '' THEN 1 ELSE 0 END) as empty_count,
    COUNT(DISTINCT column_name) as distinct_count
FROM <table>

日付/タイムスタンプカラム

SELECT
    MIN(column_name) as earliest,
    MAX(column_name) as latest,
    DATEDIFF('day', MIN(column_name), MAX(column_name)) as date_range_days,
    SUM(CASE WHEN column_name IS NULL THEN 1 ELSE 0 END) as null_count
FROM <table>

ステップ 4: カーディナリティ分析

カテゴリ/ディメンションキーのように見えるカラムについて:

SELECT
    column_name,
    COUNT(*) as frequency,
    ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER(), 2) as percentage
FROM <table>
GROUP BY column_name
ORDER BY frequency DESC
LIMIT 20

これにより以下が明らかになります:

高いカーディナリティを持つカラム (ID や一意の値の可能性)
低いカーディナリティを持つカラム (カテゴリまたはステータスフィールドの可能性)
歪んだ分布 (1 つの値が支配的)

ステップ 5: サンプルデータ

代表的な行を取得します:

SELECT *
FROM <table>
LIMIT 10

テーブルが大きい場合で多様性を求める場合は、異なる時間帯またはカテゴリからサンプルを取得してください。

ステップ 6: データ品質評価

複数の観点からデータ品質を評価します:

完全性

どのカラムに NULL がありますか? パーセンテージはいくつですか?
NULL は予想されているものか、問題のあるものか?

一意性

見かけ上の主キーに重複がありますか?
予期しない重複行がありますか?

新鮮度

データは最後いつ更新されましたか? (タイムスタンプカラムの MAX)
更新頻度は予想通りですか?

妥当性

期待される範囲外の値がありますか?
無効な形式 (日付、メールなど) がありますか?
孤立した外部キーがありますか?

一貫性

関連するカラムは一緒に意味をなしていますか?
論理的な矛盾がありますか?

ステップ 7: 出力サマリー

構造化されたプロファイルを提供します:

概要

このテーブルが何を含んでいるか、誰が使用しているか、どの程度新鮮かを説明する 2～3 文。

スキーマ

カラム	型	NULL%	個別値数	説明
...	...	...	...	...

主要な統計

行数: X
日付範囲: Y から Z
最後に更新: タイムスタンプ

データ品質スコア

完全性: X/10
一意性: X/10
新鮮度: X/10
総合: X/10

潜在的な問題

発見されたデータ品質の懸念事項をリストアップします。

推奨クエリ

このデータに関する一般的な質問に対する 3～5 つの有用なクエリ。

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: astronomer
リポジトリ: astronomer/agents
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/astronomer/agents / ライセンス: Apache-2.0