Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

data-context-extractor

Name: data-context-extractor
Author: anthropics

データアナリストが持つ社内固有の知識（テーブル構造・用語定義・メトリクス・クエリパターンなど）を引き出し、会社専用のデータ分析スキルを生成・改善します。「データコンテキストスキルを作成して」「ウェアハウス用の分析設定をしたい」などのトリガーでスキーマの探索と初期スキルの生成を行うBOOTSTRAPモードと、「[ドメイン]の情報を追加して」「[指標]でスキルを更新して」などのトリガーで既存スキルに情報を追記・更新するITERATIONモードの2つの動作モードを持ちます。Claudeに自社データウェアハウスの文脈を正確に理解させたいアナリストに最適です。

description の原文を見る

> Generate or improve a company-specific data analysis skill by extracting tribal knowledge from analysts. BOOTSTRAP MODE - Triggers: "Create a data context skill", "Set up data analysis for our warehouse", "Help me create a skill for our database", "Generate a data skill for [company]" → Discovers schemas, asks key questions, generates initial skill with reference files ITERATION MODE - Triggers: "Add context about [domain]", "The skill needs more info about [topic]", "Update the data skill with [metrics/tables/terminology]", "Improve the [domain] reference" → Loads existing skill, asks targeted questions, appends/updates reference files Use when data analysts want Claude to understand their company's specific data warehouse, terminology, metrics definitions, and common query patterns.

SKILL.md 本文

Data Context Extractor

アナリストから企業固有のデータ知識を抽出し、カスタマイズされたデータ分析スキルを生成するメタスキル。

動作方法

このスキルには2つのモードがあります:

ブートストラップモード: 新しいデータ分析スキルをゼロから作成
イテレーションモード: ドメイン固有の参照ファイルを追加して既存スキルを改善

ブートストラップモード

使用タイミング: ユーザーがウェアハウス用の新しいデータコンテキストスキルを作成したい場合。

フェーズ1: データベース接続と探索

ステップ1: データベースタイプを特定する

質問: 「どのデータウェアハウスを使用していますか?」

一般的なオプション:

BigQuery
Snowflake
PostgreSQL/Redshift
Databricks

~~data warehouse ツール (クエリおよびスキーマ) を使用して接続します。不明な場合は、現在のセッションで利用可能な MCP ツールを確認してください。

ステップ2: スキーマを探索する

~~data warehouse スキーマツールを使用して:

利用可能なデータセット/スキーマを一覧表示
最も重要なテーブルを識別 (ユーザーに質問: 「アナリストが最もよく検索する3～5個のテーブルはどれですか?」)
それらのキーテーブルのスキーマ詳細を取得

データベース方言別の探索クエリサンプル:

-- BigQuery: データセットを一覧表示
SELECT schema_name FROM INFORMATION_SCHEMA.SCHEMATA

-- BigQuery: データセット内のテーブルを一覧表示
SELECT table_name FROM `project.dataset.INFORMATION_SCHEMA.TABLES`

-- Snowflake: スキーマを一覧表示
SHOW SCHEMAS IN DATABASE my_database

-- Snowflake: テーブルを一覧表示
SHOW TABLES IN SCHEMA my_schema

フェーズ2: コアの質問 (これらを質問する)

スキーマ発見後、これらの質問を会話形式で質問します (一度にすべてではなく):

エンティティの明確化 (重要)

「ここで『ユーザー』または『顧客』と言うとき、正確には何を意味していますか? 異なるタイプがありますか?」

以下に注意:

複数のエンティティタイプ (ユーザーアカウント対組織)
それらの間の関係 (1:1、1:多、多:多)
どのID フィールドがそれらをリンクしているか

主要識別子

「[顧客/ユーザー/アカウント]の主な識別子は何ですか? 同じエンティティに複数のIDがありますか?」

以下に注意:

主キー対ビジネスキー
UUID対整数ID
レガシーID システム

重要なメトリクス

「人々が最も質問する2～3個のメトリクスは何ですか? それぞれはどのように計算されていますか?」

以下に注意:

正確な公式 (ARR = monthly_revenue × 12)
各メトリクスにフィードするテーブル/列
時間範囲の規約 (直近7日間、カレンダー月など)

データ品質

「クエリから常にフィルタリングすべきものは何ですか? (テストデータ、不正行為、内部ユーザーなど)」

以下に注意:

常に含めるべき標準 WHERE 句
除外を示すフラグ列 (is_test、is_internal、is_fraud)
除外する特定の値 (status = 'deleted')

一般的な落とし穴

「新しいアナリストがこのデータで通常犯すミスは何ですか?」

以下に注意:

列名の混同
タイムゾーンの問題
NULL 処理の癖
履歴対現在の状態テーブル

フェーズ3: スキルを生成する

この構造でスキルを作成:

[company]-data-analyst/
├── SKILL.md
└── references/
    ├── entities.md          # エンティティ定義とリレーション
    ├── metrics.md           # KPI計算
    ├── tables/              # ドメインごとに1ファイル
    │   ├── [domain1].md
    │   └── [domain2].md
    └── dashboards.json      # オプション: 既存ダッシュボードカタログ

SKILL.md テンプレート: references/skill-template.md を参照

SQL 方言セクション: references/sql-dialects.md を参照し、適切な方言の注記を含めます。

参照ファイルテンプレート: references/domain-template.md を参照

フェーズ4: パッケージ化と配信

スキルディレクトリにすべてのファイルを作成
zipファイルとしてパッケージ化
キャプチャされた内容の概要と共にユーザーに提示

イテレーションモード

使用タイミング: ユーザーが既存スキルを持っているが、さらにコンテキストを追加する必要がある場合。

ステップ1: 既存スキルを読み込む

ユーザーに既存のスキル (zip またはフォルダ) をアップロードするよう依頼するか、セッションに既に存在する場合はそれを探します。

現在の SKILL.md と参照ファイルを読んで、既に文書化されていることを理解します。

ステップ2: ギャップを特定する

質問: 「どのドメインまたはトピックにさらにコンテキストが必要ですか? どのクエリが失敗しているか、または不正な結果を生成していますか?」

一般的なギャップ:

新しいデータドメイン (マーケティング、財務、プロダクト等)
メトリクス定義の欠落
未文書化のテーブルリレーション
新しい用語

ステップ3: 対象となる探索

識別されたドメインに対して:

関連テーブルを探索: ~~data warehouse スキーマツールを使用してそのドメイン内のテーブルを検索
ドメイン固有の質問をする:
- 「[ドメイン]分析に使用されるテーブルはどれですか?」
- 「[ドメイン]の重要なメトリクスは何ですか?」
- 「[ドメイン]データのための特別なフィルタまたは落とし穴はありますか?」
新しい参照ファイルを生成: ドメインテンプレートを使用して references/[domain].md を作成

ステップ4: 更新とリパッケージ化

新しい参照ファイルを追加
SKILL.md の「Knowledge Base Navigation」セクションを更新して新しいドメインを含める
スキルをリパッケージ化
更新されたスキルをユーザーに提示

参照ファイル標準

各参照ファイルに含める必要があります:

テーブルドキュメント用

場所: 完全なテーブルパス
説明: このテーブルが何を含むか、いつ使用するか
主キー: 行を一意に識別する方法
更新頻度: データがどのくらいの頻度でリフレッシュされるか
主要列: 列名、タイプ、説明、注記を含むテーブル
リレーション: このテーブルが他とどのように結合されるか
サンプルクエリ: 2～3個の一般的なクエリパターン

メトリクスドキュメント用

メトリクス名: 人間が読める名前
定義: 平易な英語での説明
公式: 列参照を含む正確な計算
ソーステーブル: データがどこから来るか
注意事項: エッジケース、除外、落とし穴

エンティティドキュメント用

エンティティ名: それが何と呼ばれるか
定義: ビジネスで何を表すか
主要テーブル: このエンティティをどこで見つけるか
ID フィールド: どのようにそれを識別するか
リレーション: それが他のエンティティとどのように関連しているか
一般的なフィルタ: 標準的な除外 (内部、テストなど)

品質チェックリスト

生成されたスキルを配信する前に、以下を確認:

SKILL.md に完全なfrontmatter (name、description) がある
エンティティの明確化セクションが明確である
主要な用語が定義されている
標準フィルタ/除外が文書化されている
ドメインごとに少なくとも2～3個のサンプルクエリがある
SQL が正しい方言の構文を使用している
参照ファイルが SKILL.md ナビゲーションセクションからリンクされている

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: anthropics
リポジトリ: anthropics/knowledge-work-plugins
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/anthropics/knowledge-work-plugins / ライセンス: Apache-2.0

data-context-extractor

SKILL.md 本文

Data Context Extractor

動作方法

ブートストラップモード

フェーズ1: データベース接続と探索

フェーズ2: コアの質問 (これらを質問する)

フェーズ3: スキルを生成する

フェーズ4: パッケージ化と配信

イテレーションモード

ステップ1: 既存スキルを読み込む

ステップ2: ギャップを特定する

ステップ3: 対象となる探索

ステップ4: 更新とリパッケージ化

参照ファイル標準

テーブルドキュメント用

メトリクスドキュメント用

エンティティドキュメント用

品質チェックリスト

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui