deploying-monitoring-stacks
Prometheus、Grafana、Datadogなどの監視スタックのデプロイ時に監視を実施します。「deploy monitoring stack」「setup prometheus」「configure grafana」「install datadog agent」といったフレーズでトリガーされます。メトリクス収集、ビジュアライゼーションダッシュボード、アラートルールを含む本番環境対応の設定を生成します。
description の原文を見る
Monitor use when deploying monitoring stacks including Prometheus, Grafana, and Datadog. Trigger with phrases like "deploy monitoring stack", "setup prometheus", "configure grafana", or "install datadog agent". Generates production-ready configurations with metric collection, visualization dashboards, and alerting rules.
SKILL.md 本文
モニタリングスタックデプロイヤー
このスキルは、モニタリングスタックデプロイヤータスクの自動化支援を提供します。
概要
本番環境向けに、Prometheus/Grafana/Datadog などのモニタリングスタックをデプロイします。コレクター、スクレイピング設定、ダッシュボード、アラートルールが含まれます。
前提条件
このスキルを使用する前に、以下を確認してください:
- ターゲットインフラストラクチャが特定されていること(Kubernetes、Docker、ベアメタル)
- メトリクスエンドポイントがモニタリングプラットフォームからアクセス可能であること
- タイムシリーズデータ用のストレージバックエンドが設定されていること
- アラート通知チャネルが定義されていること(メール、Slack、PagerDuty)
- スケールに基づくリソース要件が計算されていること
手順
- プラットフォームの選択: Prometheus/Grafana、Datadog、またはハイブリッドアプローチを選択します
- コレクターのデプロイ: 監視対象システムにエクスポーターおよびエージェントをインストールします
- スクレイピングの設定: メトリクス収集エンドポイントと間隔を定義します
- ストレージの設定: 保持ポリシーとデータ圧縮を設定します
- ダッシュボードの作成: 主要なメトリクスの可視化パネルを構築します
- アラートの定義: 適切なしきい値を持つアラートルールを作成します
- モニタリングのテスト: メトリクスフロー、アラートトリガーを検証します
出力
Prometheus + Grafana (Kubernetes):
# {baseDir}/monitoring/prometheus.yaml
## 概要
このスキルは、説明した機能の自動化支援を提供します。
## 例
使用例パターンはコンテキスト内で説明します。
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus-config
data:
prometheus.yml: |
global:
scrape_interval: 15s
evaluation_interval: 15s
scrape_configs:
- job_name: 'kubernetes-pods'
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
action: keep
regex: true
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: prometheus
spec:
replicas: 1
template:
spec:
containers:
- name: prometheus
image: prom/prometheus:latest
args:
- '--config.file=/etc/prometheus/prometheus.yml'
- '--storage.tsdb.retention.time=30d'
ports:
- containerPort: 9090
Grafana ダッシュボード設定:
{
"dashboard": {
"title": "Application Metrics",
"panels": [
{
"title": "CPU Usage",
"type": "graph",
"targets": [
{
"expr": "rate(container_cpu_usage_seconds_total[5m])"
}
]
}
]
}
}
エラーハンドリング
メトリクスが表示されない
- エラー: 「No data points」
- 解決方法: スクレイプターゲットにアクセス可能で、メトリクスを返していることを確認します
高いカーディナリティ
- エラー: 「Too many time series」
- 解決方法: ラベルの組み合わせを削減するか、Prometheus リソースを増加させます
アラートが発火しない
- エラー: 「Alert condition met but no notification」
- 解決方法: Alertmanager の設定と通知チャネルを確認します
ダッシュボード読み込み失敗
- エラー: 「Failed to load dashboard」
- 解決方法: Grafana データソース設定とパーミッションを確認します
例
- 「Kubernetes に Prometheus + Grafana をデプロイし、高エラー率とレイテンシーのアラートを追加する」
- 「ホスト全体に Datadog エージェントをインストールし、CPU/メモリ飽和度のダッシュボードを設定する」
リソース
- Prometheus ドキュメント: https://prometheus.io/docs/
- Grafana ドキュメント: https://grafana.com/docs/
- {baseDir}/monitoring-examples/ のサンプルダッシュボード
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- majiayu000
- ライセンス
- MIT
- 最終更新
- 2026/5/4
Source: https://github.com/majiayu000/claude-skill-registry / ライセンス: MIT