azure-resource-health-diagnose
Azureリソースの正常性を分析し、ログやテレメトリからの問題を診断して、特定された問題に対する修復計画を作成します。
description の原文を見る
Analyze Azure resource health, diagnose issues from logs and telemetry, and create a remediation plan for identified problems.
SKILL.md 本文
Azure リソースヘルス & 問題診断
このワークフローは、特定の Azure リソースを分析して健全性ステータスを評価し、ログとテレメトリデータを使用して潜在的な問題を診断し、発見された問題の包括的な改善計画を作成します。
前提条件
- Azure MCP サーバーが設定され、認証されていること
- 対象の Azure リソースが特定されていること(名前およびオプションでリソースグループ/サブスクリプション)
- リソースがデプロイされ、実行中でログ/テレメトリを生成していること
- 利用可能な場合は、Azure CLI を直接使用するよりも Azure MCP ツール(
azmcp-*)を優先する
ワークフローステップ
ステップ 1: Azure ベストプラクティスの取得
アクション: 診断とトラブルシューティングのベストプラクティスを取得 ツール: Azure MCP ベストプラクティスツール プロセス:
- ベストプラクティスをロード:
- Azure ベストプラクティスツールを実行して診断ガイドラインを取得
- ヘルスモニタリング、ログ分析、問題解決パターンに焦点を当てる
- 診断アプローチと改善推奨事項を通知するためにこれらのプラクティスを使用
ステップ 2: リソース検出と識別
アクション: 対象の Azure リソースを検出して識別 ツール: Azure MCP ツール + Azure CLI フォールバック プロセス:
-
リソース検索:
- リソース名のみが指定されている場合:
azmcp-subscription-listを使用してサブスクリプション全体を検索 az resource list --name <resource-name>を使用して一致するリソースを検出- 複数の一致が見つかった場合、ユーザーにサブスクリプション/リソースグループを指定するよう促す
- 詳細なリソース情報を収集:
- リソースタイプと現在のステータス
- ロケーション、タグ、設定
- 関連するサービスと依存関係
- リソース名のみが指定されている場合:
-
リソースタイプ検出:
- リソースタイプを識別して適切な診断アプローチを決定:
- Web Apps/Function Apps: アプリケーションログ、パフォーマンスメトリクス、依存関係追跡
- 仮想マシン: システムログ、パフォーマンスカウンター、ブート診断
- Cosmos DB: リクエストメトリクス、スロットリング、パーティション統計
- ストレージアカウント: アクセスログ、パフォーマンスメトリクス、可用性
- SQL Database: クエリパフォーマンス、接続ログ、リソース使用率
- Application Insights: アプリケーションテレメトリ、例外、依存関係
- Key Vault: アクセスログ、証明書ステータス、シークレット使用状況
- Service Bus: メッセージメトリクス、配信不能キュー、スループット
- リソースタイプを識別して適切な診断アプローチを決定:
ステップ 3: ヘルスステータス評価
アクション: 現在のリソースヘルスと可用性を評価 ツール: Azure MCP モニタリングツール + Azure CLI プロセス:
-
基本的なヘルスチェック:
- リソースのプロビジョニング状態と運用ステータスを確認
- サービス可用性と応答性を検証
- 最近のデプロイメントまたは設定変更を確認
- 現在のリソース使用率(CPU、メモリ、ストレージなど)を評価
-
サービス固有のヘルス指標:
- Web Apps: HTTP レスポンスコード、応答時間、稼働時間
- データベース: 接続成功率、クエリパフォーマンス、デッドロック
- ストレージ: 可用性パーセンテージ、リクエスト成功率、レイテンシ
- VM: ブート診断、ゲスト OS メトリクス、ネットワーク接続性
- Functions: 実行成功率、期間、エラー頻度
ステップ 4: ログ & テレメトリ分析
アクション: ログとテレメトリを分析して問題とパターンを識別 ツール: Log Analytics クエリ用の Azure MCP モニタリングツール プロセス:
-
モニタリングソースを検出:
azmcp-monitor-workspace-listを使用して Log Analytics ワークスペースを識別- リソースに関連付けられた Application Insights インスタンスを検出
azmcp-monitor-table-listを使用して関連するログテーブルを識別
-
診断クエリを実行: リソースタイプに基づいた対象の KQL クエリで
azmcp-monitor-log-queryを使用:一般的なエラー分析:
// Recent errors and exceptions union isfuzzy=true AzureDiagnostics, AppServiceHTTPLogs, AppServiceAppLogs, AzureActivity | where TimeGenerated > ago(24h) | where Level == "Error" or ResultType != "Success" | summarize ErrorCount=count() by Resource, ResultType, bin(TimeGenerated, 1h) | order by TimeGenerated descパフォーマンス分析:
// Performance degradation patterns Perf | where TimeGenerated > ago(7d) | where ObjectName == "Processor" and CounterName == "% Processor Time" | summarize avg(CounterValue) by Computer, bin(TimeGenerated, 1h) | where avg_CounterValue > 80アプリケーション固有のクエリ:
// Application Insights - Failed requests requests | where timestamp > ago(24h) | where success == false | summarize FailureCount=count() by resultCode, bin(timestamp, 1h) | order by timestamp desc // Database - Connection failures AzureDiagnostics | where ResourceProvider == "MICROSOFT.SQL" | where Category == "SQLSecurityAuditEvents" | where action_name_s == "CONNECTION_FAILED" | summarize ConnectionFailures=count() by bin(TimeGenerated, 1h) -
パターン認識:
- 繰り返されるエラーパターンまたは異常を識別
- エラーをデプロイメント時刻または設定変更と相関関係
- パフォーマンストレンドと低下パターンを分析
- 依存関係の失敗または外部サービスの問題を確認
ステップ 5: 問題分類とルート原因分析
アクション: 特定された問題を分類し、根本原因を決定 プロセス:
-
問題分類:
- クリティカル: サービス利用不可、データ損失、セキュリティ侵害
- 高: パフォーマンス低下、間欠的な障害、高いエラー率
- 中: 警告、不最適な設定、マイナーなパフォーマンス問題
- 低: 情報アラート、最適化の機会
-
ルート原因分析:
- 設定の問題: 不正な設定、不足している依存関係
- リソース制約: CPU/メモリ/ディスク制限、スロットリング
- ネットワークの問題: 接続問題、DNS 解決、ファイアウォールルール
- アプリケーションの問題: コードバグ、メモリリーク、非効率なクエリ
- 外部依存関係: サードパーティサービスの障害、API リミット
- セキュリティの問題: 認証失敗、証明書失効
-
影響評価:
- ビジネスへの影響と影響を受けるユーザー/システムを決定
- データの整合性とセキュリティの影響を評価
- 復旧時間目標と優先度を評価
ステップ 6: 改善計画の生成
アクション: 特定された問題に対処するための包括的な計画を作成 プロセス:
-
即時アクション (クリティカル問題):
- サービス可用性を復元するための緊急修正
- 影響を軽減するための一時的な回避策
- 複雑な問題のエスカレーション手順
-
短期修正 (高/中優先度の問題):
- 設定調整とリソーススケーリング
- アプリケーションアップデートとパッチ
- モニタリングとアラート機能の改善
-
長期改善 (すべての問題):
- より高い耐障害性のためのアーキテクチャ変更
- 予防措置とモニタリング強化
- ドキュメントとプロセスの改善
-
実装ステップ:
- 具体的な Azure CLI コマンドを含む優先度付きアクション項目
- テストと検証手順
- 各変更のロールバック計画
- 問題解決を確認するためのモニタリング
ステップ 7: ユーザー確認とレポート生成
アクション: 調査結果を提示し、改善アクションの承認を得る プロセス:
-
ヘルス評価概要を表示:
🏥 Azure リソースヘルス評価 📊 リソース概要: • リソース: [名前] ([タイプ]) • ステータス: [正常/警告/クリティカル] • ロケーション: [地域] • 最終分析: [タイムスタンプ] 🚨 特定された問題: • クリティカル: X件 (即時対応が必要) • 高: Y件 (パフォーマンス/信頼性に影響) • 中: Z件 (最適化用) • 低: N件 (情報項目) 🔍 トップの問題: 1. [問題タイプ]: [説明] - 影響: [高/中/低] 2. [問題タイプ]: [説明] - 影響: [高/中/低] 3. [問題タイプ]: [説明] - 影響: [高/中/低] 🛠️ 改善計画: • 即時アクション: X件 • 短期修正: Y件 • 長期改善: Z件 • 推定解決時間: [タイムライン] ❓ 詳細な改善計画を進めますか? (y/n) -
詳細レポートを生成:
# Azure リソースヘルスレポート: [リソース名] **生成日時**: [タイムスタンプ] **リソース**: [フルリソース ID] **総合ヘルス**: [色付きステータス] ## 🔍 エグゼクティブサマリー [ヘルスステータスと主要な調査結果の概要] ## 📊 ヘルスメトリクス - **可用性**: 過去 24 時間で X% - **パフォーマンス**: [平均応答時間/スループット] - **エラー率**: 過去 24 時間で X% - **リソース使用率**: [CPU/メモリ/ストレージのパーセンテージ] ## 🚨 特定された問題 ### クリティカル問題 - **[問題 1]**: [説明] - **根本原因**: [分析] - **影響**: [ビジネスへの影響] - **即時アクション**: [必要なステップ] ### 高優先度問題 - **[問題 2]**: [説明] - **根本原因**: [分析] - **影響**: [パフォーマンス/信頼性への影響] - **推奨修正**: [ソリューションステップ] ## 🛠️ 改善計画 ### フェーズ 1: 即時アクション (0~2時間) ```bash # サービスを復元するための重要な修正 [説明付き Azure CLI コマンド]フェーズ 2: 短期修正 (2~24時間)
# パフォーマンスと信頼性の向上 [説明付き Azure CLI コマンド]フェーズ 3: 長期改善 (1~4週間)
# アーキテクチャと予防措置 [Azure CLI コマンドと設定変更]📈 モニタリング推奨事項
- 設定するアラート: [推奨アラートのリスト]
- 作成するダッシュボード: [モニタリングダッシュボードの提案]
- 定期的なヘルスチェック: [推奨される頻度と範囲]
✅ 検証ステップ
- ログを通じた問題解決を確認
- パフォーマンス改善を確認
- アプリケーション機能をテスト
- モニタリングとアラート機能を更新
- 学習内容をドキュメント化
📝 予防措置
- [同様の問題を防ぐための推奨事項]
- [プロセス改善]
- [モニタリング強化]
エラーハンドリング
- リソースが見つからない: リソース名/ロケーション指定に関するガイダンスを提供
- 認証の問題: ユーザーを Azure 認証セットアップに導く
- 権限不足: リソースアクセスに必要な RBAC ロールをリストアップ
- ログが利用不可: 診断設定の有効化とデータの待機を提案
- クエリタイムアウト: 分析をより小さい時間枠に分割
- サービス固有の問題: 制限事項を記載した汎用的なヘルス評価を提供
成功基準
- ✅ リソースのヘルスステータスが正確に評価されている
- ✅ すべての重大な問題が特定され、分類されている
- ✅ 主要な問題のルート原因分析が完了している
- ✅ 具体的なステップを含めた実行可能な改善計画が提供されている
- ✅ モニタリングと予防推奨事項が含まれている
- ✅ 問題がビジネスへの影響で明確に優先順位付けされている
- ✅ 実装ステップに検証とロールバック手順が含まれている
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- github
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/github/awesome-copilot / ライセンス: MIT
関連スキル
superpowers-streamer-cli
SuperPowers デスクトップストリーマーの npm パッケージをインストール、ログイン、実行、トラブルシューティングできます。ユーザーが npm から `superpowers-ai` をセットアップしたい場合、メールまたは電話でサインインもしくはアカウント作成を行いたい場合、ストリーマーを起動したい場合、表示されたコントロールリンクを開きたい場合、後で停止したい場合、またはソースコードへのアクセスなしに npm やランタイムの一般的な問題から復旧したい場合に使用します。
catc-client-ops
Catalyst Centerのクライアント操作・監視機能 - 有線・無線クライアントのリスト表示・フィルタリング、MACアドレスによる詳細なクライアント検索、クライアント数分析、時間軸での分析、SSIDおよび周波数帯によるフィルタリング、無線トラブルシューティング機能を提供します。MACアドレスやIPアドレスでのクライアント検索、サイト別やSSID別のクライアント数集計、無線周波数帯の分布分析、Wi-Fi信号の問題調査が必要な場合に活用できます。
ci-cd-and-automation
CI/CDパイプラインの設定を自動化します。ビルドおよびデプロイメントパイプラインの構築または変更時に使用できます。品質ゲートの自動化、CI内のテストランナー設定、またはデプロイメント戦略の確立が必要な場合に活用します。
shipping-and-launch
本番環境へのリリース準備を行います。本番環境へのデプロイ準備が必要な場合、リリース前チェックリストが必要な場合、監視機能の設定を行う場合、段階的なロールアウトを計画する場合、またはロールバック戦略が必要な場合に使用します。
linear-release-setup
Linear Releaseに向けたCI/CD設定を生成します。リリース追跡の設定、LinearのCIパイプライン構築、またはLinearリリースとのデプロイメント連携を実施する際に利用できます。GitHub Actions、GitLab CI、CircleCIなど複数のプラットフォームに対応しています。
tracking-application-response-times
API エンドポイント、データベースクエリ、サービスコール全体にわたるアプリケーションのレスポンスタイムを追跡・最適化できます。パフォーマンス監視やボトルネック特定の際に活用してください。「レスポンスタイムを追跡する」「API パフォーマンスを監視する」「遅延を分析する」といった表現で呼び出せます。