exploring-data-catalog
S3 Tables・Redshift連携・リモートIcebergカタログを含むAWS Glue Data Catalogの全資産を棚卸し・監査するスキルです。「カタログの一覧表示」「データベースの監査」「テーブルの列挙」「データ全体の把握」などをトリガーに動作します。特定データの検索・クエリ実行・テーブル作成には使用せず、それぞれ専用スキルを利用してください。
description の原文を見る
>- Full inventory and audit of AWS Glue Data Catalog assets across S3 Tables, Redshift-federated, and remote Iceberg catalogs. Triggers on: inventory the catalog, audit databases, list all tables, catalog overview, data landscape, enumerate catalogs, data inventory, search the catalog. Do NOT use for finding specific data (use finding-data-lake-assets), running queries (use querying-data-lake), or creating tables (use creating-data-lake-table).
SKILL.md 本文
AWS データランドスケープ全体での構造化されたインベントリと分類: Glue Data Catalog、S3 Tables、Redshift 統合、リモート Iceberg カタログに対応。
概要
AWS アカウント内のデータをマッピングします。カタログランドスケープ (Glue、S3 Tables、統合) から始まり、データベースとテーブルに掘り下げます。読み取り専用 — クエリ実行なし。
パラメータ取得の制約:
- 提供されていない場合は、対象の AWS リージョンを最初に必ず確認してください
- 単一の任意引数をサポートする必要があります: 検索語、カタログ名、データベース名、S3 パス、またはテーブル名
- 直接入力またはスペックを含むファイルへのポインタとして引数を受け入れてください
- API 呼び出しを行う前にスコープ (全体ランドスケープ対ターゲット絞り込み) を必ず確認してください
- 各ステップでユーザーの中止判断を尊重してください
一般的なタスク
ページネーション: このワークフロー内のすべてのリストと検索呼び出しは、ページネーションされた結果を返す場合があります。トークンが返されなくなるまで、前回の応答から --next-token を必ず渡してください。単一ページにすべての結果が含まれていると仮定しないでください。
1. 依存関係を確認
検出前に必要なツールと AWS アクセスを確認します。
制約:
- AWS MCP サーバーツール (
aws___call_aws、aws___search_documentation) が利用可能かどうかを必ず確認し、利用できない場合は AWS CLI にフォールバックしてください - 認証情報が有効であることを確認してください:
aws sts get-caller-identity - ユーザーに欠落しているツールについて通知し、続行するかどうかを尋ねてください
2. カタログを検出
アカウント内のカタログをリストします:
aws glue get-catalogs --recursive --include-root
各カタログをタイプ別に分類します:
| 存在するフィールド | カタログタイプ | 含まれる内容 |
|---|---|---|
TargetRedshiftCatalog も FederatedCatalog もない | デフォルト (Glue) | 標準 Glue データベースとテーブル |
FederatedCatalog.ConnectionName = aws:s3tables | S3 Tables | 管理対象 Iceberg テーブルバケット |
TargetRedshiftCatalog | Redshift 統合 | Glue カタログとして公開されている Redshift データベース |
FederatedCatalog で ConnectionName ≠ aws:s3tables | リモート Iceberg | 外部カタログ (Snowflake、Databricks、Iceberg REST) |
制約:
- デフォルトアカウントカタログをキャプチャするために
--include-rootを必ず含めてください - カタログタイプ別の集計を必ず表示してください
- デフォルトカタログのみが存在する場合、カタログ概要をスキップしてステップ 3 に進むべきです
3. データベースとテーブルを列挙
各カタログ (またはユーザーが指定したカタログ) について:
aws glue get-databases --catalog-id <catalog-id>
aws glue get-tables --database-name <db> --catalog-id <catalog-id>
S3 Tables カタログの場合、S3 Tables API 経由でも列挙します:
aws s3tables list-table-buckets
aws s3tables list-namespaces --table-bucket-arn <arn>
aws s3tables list-tables --table-bucket-arn <arn> --namespace <ns>
制約:
- Glue に登録されていない S3 Tables に必ずフラグを付け、登録を提案するべきです
- サブカタログの場合、
--catalog-idはカタログ名 (ARN ではない) を受け入れます - デフォルトカタログの場合、
--catalog-idを省略するか、アカウント ID を渡します
4. 詳細をキャプチャして分析
各データベースについて、テーブル数、フォーマット、パーティショニング、S3 ロケーションをキャプチャします。関心のある各テーブルについて、列スキーマ、タイプ、パーティションキー、SerDe フォーマット、最後のアクセス時刻をキャプチャします。
データフォーマットを人間が読める用語 (Parquet、CSV、JSON) で報告する必要があります。生の SerDe クラス名ではありません。
分析フレームワークについては discovery-checklist.md を参照してください。
引数ルーティング
この順序で引数を解析します。最初にマッチしたところで停止します:
s3://で始まる — S3 パス (未登録データを調査、フォーマットを検出)- ステップ 2 (
get-catalogs) の既知カタログと一致 — そのカタログへの深掘り - 既知データベース (
get-databases) と一致 — そのデータベースへの深掘り - 既知テーブル (
get-tables) と一致 — スキーマとパーティション付きの詳細テーブル分析 - マッチしない — 検索語として扱う (Glue
search-tables) - 引数なし — 全体ランドスケープ検出 (カタログ、その後データベースとテーブル)
原則
- カタログランドスケープから始めて、ユーザーの関心に基づいて絞り込みます
- カタログタイプを必ず報告してください — ユーザーはデータがどこに存在するかを知る必要があります
- データフォーマットを必ず報告してください — それらはコストとパフォーマンスの決定に影響します
- 古いテーブルと説明がないテーブルにフラグを付けます
- 大規模なパーティション分割されていないテーブルのパーティショニングを提案します
- 概要を最初に、詳細はリクエストに応じて
- 検出中に Athena クエリ (
start-query-execution) を実行してはいけません。クエリ実行はquerying-data-lakeに属します
トラブルシューティング
| エラー | 原因 | 解決策 |
|---|---|---|
| デフォルトが欠落している、サブカタログのみが返される | --include-root が省略されている | --include-root を使用して get-catalogs を再実行してください |
| 統合カタログのクエリが遅いまたは失敗している | リモートソースへのネットワーク呼び出し。接続が設定されていない | 接続エラーを明確に報告し、黙ってスキップしないでください |
| S3 Tables が Athena 経由でクエリ不可 | テーブルは S3 Tables API に存在するが Glue に登録されていない | 「クエリ不可」とフラグを付け、登録を提案してください |
get-databases/get-tables が catalog-id で失敗する | デフォルトカタログは省略またはアカウント ID が必要 | --catalog-id を省略するか、デフォルトカタログにアカウント ID を渡してください |
追加リソース
検出チェックリスト- AWS Glue Data Catalog API
- S3 Tables リスト操作
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- aws
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/aws/agent-toolkit-for-aws / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。