Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

exploring-data-catalog

Name: exploring-data-catalog
Author: aws

S3 Tables・Redshift連携・リモートIcebergカタログを含むAWS Glue Data Catalogの全資産を棚卸し・監査するスキルです。「カタログの一覧表示」「データベースの監査」「テーブルの列挙」「データ全体の把握」などをトリガーに動作します。特定データの検索・クエリ実行・テーブル作成には使用せず、それぞれ専用スキルを利用してください。

description の原文を見る

>- Full inventory and audit of AWS Glue Data Catalog assets across S3 Tables, Redshift-federated, and remote Iceberg catalogs. Triggers on: inventory the catalog, audit databases, list all tables, catalog overview, data landscape, enumerate catalogs, data inventory, search the catalog. Do NOT use for finding specific data (use finding-data-lake-assets), running queries (use querying-data-lake), or creating tables (use creating-data-lake-table).

SKILL.md 本文

AWS データランドスケープ全体での構造化されたインベントリと分類: Glue Data Catalog、S3 Tables、Redshift 統合、リモート Iceberg カタログに対応。

概要

AWS アカウント内のデータをマッピングします。カタログランドスケープ (Glue、S3 Tables、統合) から始まり、データベースとテーブルに掘り下げます。読み取り専用 — クエリ実行なし。

パラメータ取得の制約:

提供されていない場合は、対象の AWS リージョンを最初に必ず確認してください
単一の任意引数をサポートする必要があります: 検索語、カタログ名、データベース名、S3 パス、またはテーブル名
直接入力またはスペックを含むファイルへのポインタとして引数を受け入れてください
API 呼び出しを行う前にスコープ (全体ランドスケープ対ターゲット絞り込み) を必ず確認してください
各ステップでユーザーの中止判断を尊重してください

一般的なタスク

ページネーション: このワークフロー内のすべてのリストと検索呼び出しは、ページネーションされた結果を返す場合があります。トークンが返されなくなるまで、前回の応答から --next-token を必ず渡してください。単一ページにすべての結果が含まれていると仮定しないでください。

1. 依存関係を確認

検出前に必要なツールと AWS アクセスを確認します。

制約:

AWS MCP サーバーツール (aws___call_aws、aws___search_documentation) が利用可能かどうかを必ず確認し、利用できない場合は AWS CLI にフォールバックしてください
認証情報が有効であることを確認してください: aws sts get-caller-identity
ユーザーに欠落しているツールについて通知し、続行するかどうかを尋ねてください

2. カタログを検出

アカウント内のカタログをリストします:

aws glue get-catalogs --recursive --include-root

各カタログをタイプ別に分類します:

存在するフィールド	カタログタイプ	含まれる内容
`TargetRedshiftCatalog` も `FederatedCatalog` もない	デフォルト (Glue)	標準 Glue データベースとテーブル
`FederatedCatalog.ConnectionName` = `aws:s3tables`	S3 Tables	管理対象 Iceberg テーブルバケット
`TargetRedshiftCatalog`	Redshift 統合	Glue カタログとして公開されている Redshift データベース
`FederatedCatalog` で `ConnectionName` ≠ `aws:s3tables`	リモート Iceberg	外部カタログ (Snowflake、Databricks、Iceberg REST)

制約:

デフォルトアカウントカタログをキャプチャするために --include-root を必ず含めてください
カタログタイプ別の集計を必ず表示してください
デフォルトカタログのみが存在する場合、カタログ概要をスキップしてステップ 3 に進むべきです

3. データベースとテーブルを列挙

各カタログ (またはユーザーが指定したカタログ) について:

aws glue get-databases --catalog-id <catalog-id>
aws glue get-tables --database-name <db> --catalog-id <catalog-id>

S3 Tables カタログの場合、S3 Tables API 経由でも列挙します:

aws s3tables list-table-buckets
aws s3tables list-namespaces --table-bucket-arn <arn>
aws s3tables list-tables --table-bucket-arn <arn> --namespace <ns>

制約:

Glue に登録されていない S3 Tables に必ずフラグを付け、登録を提案するべきです
サブカタログの場合、--catalog-id はカタログ名 (ARN ではない) を受け入れます
デフォルトカタログの場合、--catalog-id を省略するか、アカウント ID を渡します

4. 詳細をキャプチャして分析

各データベースについて、テーブル数、フォーマット、パーティショニング、S3 ロケーションをキャプチャします。関心のある各テーブルについて、列スキーマ、タイプ、パーティションキー、SerDe フォーマット、最後のアクセス時刻をキャプチャします。

データフォーマットを人間が読める用語 (Parquet、CSV、JSON) で報告する必要があります。生の SerDe クラス名ではありません。

分析フレームワークについては discovery-checklist.md を参照してください。

引数ルーティング

この順序で引数を解析します。最初にマッチしたところで停止します:

s3:// で始まる — S3 パス (未登録データを調査、フォーマットを検出)
ステップ 2 (get-catalogs) の既知カタログと一致 — そのカタログへの深掘り
既知データベース (get-databases) と一致 — そのデータベースへの深掘り
既知テーブル (get-tables) と一致 — スキーマとパーティション付きの詳細テーブル分析
マッチしない — 検索語として扱う (Glue search-tables)
引数なし — 全体ランドスケープ検出 (カタログ、その後データベースとテーブル)

原則

カタログランドスケープから始めて、ユーザーの関心に基づいて絞り込みます
カタログタイプを必ず報告してください — ユーザーはデータがどこに存在するかを知る必要があります
データフォーマットを必ず報告してください — それらはコストとパフォーマンスの決定に影響します
古いテーブルと説明がないテーブルにフラグを付けます
大規模なパーティション分割されていないテーブルのパーティショニングを提案します
概要を最初に、詳細はリクエストに応じて
検出中に Athena クエリ (start-query-execution) を実行してはいけません。クエリ実行は querying-data-lake に属します

トラブルシューティング

エラー	原因	解決策
デフォルトが欠落している、サブカタログのみが返される	`--include-root` が省略されている	`--include-root` を使用して `get-catalogs` を再実行してください
統合カタログのクエリが遅いまたは失敗している	リモートソースへのネットワーク呼び出し。接続が設定されていない	接続エラーを明確に報告し、黙ってスキップしないでください
S3 Tables が Athena 経由でクエリ不可	テーブルは S3 Tables API に存在するが Glue に登録されていない	「クエリ不可」とフラグを付け、登録を提案してください
`get-databases`/`get-tables` が catalog-id で失敗する	デフォルトカタログは省略またはアカウント ID が必要	`--catalog-id` を省略するか、デフォルトカタログにアカウント ID を渡してください

追加リソース

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: aws
リポジトリ: aws/agent-toolkit-for-aws
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/aws/agent-toolkit-for-aws / ライセンス: Apache-2.0

exploring-data-catalog

SKILL.md 本文

概要

一般的なタスク

1. 依存関係を確認

2. カタログを検出

3. データベースとテーブルを列挙

4. 詳細をキャプチャして分析

引数ルーティング

原則

トラブルシューティング

追加リソース

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data