Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

querying-data-lake

Name: querying-data-lake
Author: aws

AthenaのSQLクエリをデフォルトおよびフェデレーテッドカタログ（Glue、S3 Tables、Redshift）全体で実行・管理します。「データをクエリする」「SQLを実行する」「テーブルを分析する」「Redshiftカタログを照会する」などのフレーズで起動します。特定データ資産の検索（finding-data-lake-assets）、カタログ全体の監査（exploring-data-catalog）、データのインポート（ingesting-into-data-lake）には使用しないでください。

description の原文を見る

>- Execute and manage Athena SQL queries across default and federated catalogs (Glue, S3 Tables, Redshift). Triggers on phrases like: query data, run SQL, athena query, analyze table, SQL query, workgroup status, profile table, query Redshift catalog, query S3 Tables. Do NOT use for finding specific data assets (use finding-data-lake-assets), full catalog audits (use exploring-data-catalog), importing data (use ingesting-into-data-lake).

SKILL.md 本文

データレイクのクエリ実行

デフォルトカタログおよびフェデレーテッドカタログ (Glue、S3 Tables、Redshift) にわたって Amazon Athena で SQL クエリを実行します。ワークグループの選択、ステートメント分類、エラー復旧に対応しています。

概要

Athena SQL クエリをデフォルトおよびフェデレーテッドカタログ (Glue、S3 Tables、Redshift) 全体で実行・管理します。ワークグループを選択し、ターゲットアセットを解決し (ファジー参照は finding-data-lake-assets に委譲)、ステートメントを安全性に関して分類し、コストとスキャンデータを報告します。AWS MCP サーバーを使用してサンドボックス環境での実行と監査ログを実施します。MCP サーバーが利用できない場合、同じ AWS CLI コマンドを直接実行できます。

パラメータ取得の制約:

SQL テキスト、名前付きクエリ名、ワークグループ名、カタログ名、または profile TABLE_NAME のいずれか 1 つのオプション引数を受け入れる必要があります
引数を直接テキストとして、または SQL を含むファイルへのポインタとして受け入れる必要があります
対象の AWS リージョンがまだ設定されていない場合はユーザーに確認する必要があります
自明でないクエリを実行する前に出力 S3 ロケーションを確認する必要があります
ユーザーが任意のステップで中止することを決定した場合、それを尊重する必要があります

一般的なタスク

1. 依存関係の確認

クエリを実行する前に、必要なツールと AWS アクセスを確認します。

制約:

AWS MCP サーバーツール (aws___call_aws) が利用可能かどうかを確認し、存在する場合はそれらを通じてクエリを実行する必要があります。MCP サーバーが利用できない場合のみ AWS CLI にフォールバックします
クエリ実行に Shell や Bash にフォールバックしてはいけません。結果は MCP ツールまたは aws athena CLI を通じてキャプチャする必要があり、出力ロケーションとコストが追跡されます
aws sts get-caller-identity で認証情報を確認し、ユーザーに欠落しているツールについて通知する必要があります

2. ワークグループの解決

呼び出し元 ID を確認し、ワークグループを一覧表示し、最適なワークグループを自動選択します (workgroup-selection.md を参照)。

制約:

クエリを送信する前に必ずワークグループを選択する必要があります (出力ロケーションエラーを防ぎます)
選択されたワークグループとその出力ロケーションをユーザーに提示する必要があります
ユーザーの確認なしに失敗時に別のワークグループに自動昇格しないでください

3. ターゲットアセットの解決

ユーザーがテーブル名、ビジネス概念 ("四半期レポート"、"売上データ")、S3 パス、またはテーブルを指定せずにカタログで参照している場合は、finding-data-lake-assets に委譲して具体的な database.table (非デフォルト場合はカタログ) を返してもらいます。

制約:

athena list-data-catalogs または get-tables の反復処理を使用してファジーアセット参照を解決しようとしないでください。これはフェデレーテッドカタログをミスし、トークンを浪費します
ユーザーが完全修飾参照 (正確な database.table) または実行のままのままにしたい SQL を提供する場合のみこのステップをスキップしてください
クエリを構築する前に解決されたアセットを明示的に記述する必要があります: "Found [table] in [catalog]. Using this for the query."
ユーザーが "フェデレーテッド"、"Redshift"、"S3 Tables" に言及している場合、または finding-data-lake-assets が別のカタログを返す場合を除き、デフォルト Glue カタログをデフォルトにする必要があります

4. スキーマの発見

分析クエリの場合、最終クエリを構築する前にターゲットテーブルをプロファイルする必要があります。プロファイリングの一部として、サンプル行 (SELECT ... LIMIT 5) を表示する必要があります。

5. クエリの構築

テーブルのアドレス指定はカタログタイプによって異なります:

デフォルト Glue カタログ: database.table (単一カタログクエリではカタログプレフィックスを省略)。クロスカタログクエリでは、デフォルトカタログテーブルを "awsdatacatalog".database.table で修飾します。
登録されたデータソース: datasource.database.table
未登録の Glue カタログ: "catalog/subcatalog".database.table

6. 分類と実行

実行前に SQL ステートメントを分類します:

ステートメント	動作
`SELECT`、`SHOW`、`DESCRIBE`、`EXPLAIN`	安全 — 実行
`INSERT`、`UPDATE`、`DELETE`、`DROP`、`ALTER`、`CREATE`、`TRUNCATE`、`MERGE`	破壊的 — ユーザーに警告して明示的な確認が必要
不確実	破壊的として扱う; 確認

ツール呼び出しの例 (AWS MCP サーバー経由):

aws___call_aws(command="aws athena start-query-execution --work-group <WORKGROUP_NAME> --query-string '<sql>' --query-execution-context Database=<db>")

フェデレーテッドまたは S3 Tables カタログの場合、実行コンテキストに Catalog=<CATALOG_PATH> も設定します (例: Catalog=s3tablescatalog/<BUCKET_NAME>)。

制約:

Redshift フェデレーテッド ("パーティションプルーニングなし — すべてのクエリがテーブル全体をスキャン") を実行する前にユーザーに警告する必要があります
クロスカタログ結合を実行する前にユーザーに警告する必要があります ("クロスカタログ結合はネットワークオーバーヘッドが発生し、遅い可能性があります")
実行前に出力 S3 ロケーションを確認する必要があります
実行前にどのツールが呼び出されているかを説明する必要があります
ユーザーが中止することを決定した場合それを尊重する必要があります

7. 結果の提示と復旧

コスト、スキャンデータ、期間、および実行可能なインサイトを含めて結果を提示します。失敗時、利用可能なワークグループを一覧表示し、ユーザーがどれで再試行するかを選択させます。

引数ルーティング

この順序で解決し、最初の一致で停止します:

SQL キーワード (SELECT、SHOW、DESCRIBE、INSERT など) を含む — SQL テキスト、直接実行
profile TABLE_NAME — 包括的なテーブルプロファイリングを実行 (query-patterns.md を参照)
既知の名前付きクエリと一致 — ルックアップして実行
既知のワークグループと一致 — ワークグループのステータスと最近のクエリを表示
既知のカタログと一致 — exploring-data-catalog に委譲してデータベースとテーブルを列挙
引数なし — 最近のクエリアクティビティと利用可能なテーブルを表示

原則

常に実行前にワークグループを選択します (出力ロケーションエラーを防ぎます)
分析クエリを実行する前に不慣れなテーブルをプロファイルします
結果と一緒にコストを提示して、ユーザーがコスト認識を構築できるようにします
大規模なテーブルでの探索的クエリの場合は LIMIT を提案します
明らかな答えを持つドメイン質問は尋ねません。ただし、常にセキュリティ関連のアクション (ワークグループ切り替え、出力ロケーション変更、非SELECT ステートメント) を確認します

トラブルシューティング

エラー	原因	修正
Redshift 識別子エラー (混在ケース)	Redshift フェデレーテッド名は小文字のみ	識別子を小文字にする
`CatalogId` 検証失敗	ARN がカタログ名の代わりに渡された	カタログ名を渡す (ARN ではなく)
クロスカタログ `information_schema` が何も返さない	カタログ修飾子が不足	カタログ修飾パスを使用: `"catalog".information_schema.tables`
クエリが出力ロケーションエラーで失敗	ワークグループに出力ロケーションが設定されていない	出力ロケーション付きの別のワークグループを選択、または設定
確認なしに破壊的ステートメントが実行された	ステートメント分類がスキップされた	常に `INSERT`/`UPDATE`/`DELETE`/`DROP`/`ALTER`/`CREATE`/`TRUNCATE`/`MERGE` を分類してユーザーに確認

追加リソース

ワークグループ選択ロジック
一般的なクエリパターン
Athena ベストプラクティス
Athena フェデレーテッドクエリ

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: aws
リポジトリ: aws/agent-toolkit-for-aws
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/aws/agent-toolkit-for-aws / ライセンス: Apache-2.0

querying-data-lake

SKILL.md 本文

データレイクのクエリ実行

概要

一般的なタスク

1. 依存関係の確認

2. ワークグループの解決

3. ターゲットアセットの解決

4. スキーマの発見

5. クエリの構築

6. 分類と実行

7. 結果の提示と復旧

引数ルーティング

原則

トラブルシューティング

追加リソース

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data