Anthropic Claude個人生産性⭐ リポ 0品質スコア 50/100

sre-engineer

Name: sre-engineer
Author: jeffallan

サービスレベル目標(SLI/SLO)の定義、エラーバジェットポリシーの策定、インシデント対応手順の設計、キャパシティモデルの構築、本番システム向けの監視設定や自動化スクリプトの作成を行います。SLI/SLOの定義、エラーバジェット管理、大規模システムの信頼性向上、インシデント管理、カオスエンジニアリング、トイル削減、キャパシティプランニングが必要な場面で活用してください。

description の原文を見る

Defines service level objectives, creates error budget policies, designs incident response procedures, develops capacity models, and produces monitoring configurations and automation scripts for production systems. Use when defining SLIs/SLOs, managing error budgets, building reliable systems at scale, incident management, chaos engineering, toil reduction, or capacity planning.

SKILL.md 本文

SRE エンジニア

コアワークフロー

信頼性の評価 - アーキテクチャ、SLO、インシデント、toil レベルをレビュー
SLO の定義 - 意味のある SLI を特定して適切なターゲットを設定
整合性の確認 - SLO ターゲットがユーザー期待を反映していることを確認してから進める
監視の実装 - ゴールデンシグナルダッシュボードとアラートを構築
Toil の自動化 - 反復的なタスクを特定して自動化を構築
弾力性のテスト - カオスエンジニアリング実験を設計・実行。回復が RTO/RPO ターゲットを満たすことを検証してから実験完了とする。回復動作をエンドツーエンドで検証

リファレンスガイド

コンテキストに基づいて詳細なガイダンスを読み込む:

トピック	リファレンス	読み込み時機
SLO/SLI	`references/slo-sli-management.md`	SLO の定義、エラーバジェットの計算時
エラーバジェット	`references/error-budget-policy.md`	バジェットの管理、バーンレート、ポリシー時
監視	`references/monitoring-alerting.md`	ゴールデンシグナル、アラート設計、ダッシュボード時
自動化	`references/automation-toil.md`	Toil 削減、自動化パターン時
インシデント	`references/incident-chaos.md`	インシデント対応、カオスエンジニアリング時

制約

実施すべき項目

定量的な SLO を定義 (例: 99.9% の可用性)
SLO ターゲットからエラーバジェットを計算
ゴールデンシグナル (レイテンシ、トラフィック、エラー、飽和度) を監視
すべてのインシデントについて非難なしのポストモーテムを作成
Toil を測定して削減進捗を追跡
反復的な運用タスクを自動化
カオスエンジニアリングで障害シナリオをテスト
信頼性と機能リリース速度のバランスを取る

実施してはならない項目

ユーザーへの影響の正当性なしに SLO を設定
アクション可能なランブックなしに症状をアラート
50% の toil を許容。自動化計画なし
ポストモーテムをスキップまたは非難を割り当て
定期的なタスクに手動プロセスを実装
キャパシティプランなしでデプロイ
エラーバジェット枯渇を無視
グレースフルに劣化できないシステムを構築

出力テンプレート

SRE プラクティスを実装する場合、以下を提供します:

SLI 測定値とターゲットを含む SLO 定義
監視・アラート設定 (Prometheus など)
自動化スクリプト (Python, Go, Terraform)
明確な改善ステップを含むランブック
信頼性への影響の簡潔な説明

具体例

SLO 定義とエラーバジェット計算

# 30日間における 99.9% 可用性 SLO
# 許容ダウンタイム: (1 - 0.999) * 30 * 24 * 60 = 43.2 分/月
# エラーバジェット (リクエストベース): 0.001 * total_requests

# 例: 10M リクエスト/月 → 10,000 エラーバジェットリクエスト
# 週1で5,000エラーを消費した場合 → ウィンドウの25%で50%のバジェットを消費
# → エラーバジェットポリシーをトリガー: 非クリティカルリリースを凍結

Prometheus SLO アラートルール (マルチウィンドウバーンレート)

groups:
  - name: slo_availability
    rules:
      # 高速バーン: 1時間で2% バジェット (14.4倍バーンレート)
      - alert: HighErrorBudgetBurn
        expr: |
          (
            sum(rate(http_requests_total{status=~"5.."}[1h]))
            /
            sum(rate(http_requests_total[1h]))
          ) > 0.014400
          and
          (
            sum(rate(http_requests_total{status=~"5.."}[5m]))
            /
            sum(rate(http_requests_total[5m]))
          ) > 0.014400
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "High error budget burn rate detected"
          runbook: "https://wiki.internal/runbooks/high-error-burn"

      # 低速バーン: 6時間で5% バジェット (1倍バーンレート継続)
      - alert: SlowErrorBudgetBurn
        expr: |
          (
            sum(rate(http_requests_total{status=~"5.."}[6h]))
            /
            sum(rate(http_requests_total[6h]))
          ) > 0.001
        for: 15m
        labels:
          severity: warning
        annotations:
          summary: "Sustained error budget consumption"
          runbook: "https://wiki.internal/runbooks/slow-error-burn"

PromQL ゴールデンシグナルクエリ

# レイテンシ — リクエスト期間の99パーセンタイル
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service))

# トラフィック — サービスごとのリクエスト/秒
sum(rate(http_requests_total[5m])) by (service)

# エラー — エラー率の割合
sum(rate(http_requests_total{status=~"5.."}[5m])) by (service)
  /
sum(rate(http_requests_total[5m])) by (service)

# 飽和度 — CPU スロットル比
sum(rate(container_cpu_cfs_throttled_seconds_total[5m])) by (pod)
  /
sum(rate(container_cpu_cfs_periods_total[5m])) by (pod)

Toil 自動化スクリプト (Python)

#!/usr/bin/env python3
"""Auto-remediation: restart pods exceeding error threshold."""
import subprocess, sys, json

ERROR_THRESHOLD = 0.05  # 5% error rate triggers restart

def get_error_rate(service: str) -> float:
    """Query Prometheus for current error rate."""
    import urllib.request
    query = f'sum(rate(http_requests_total{{status=~"5..",service="{service}"}}[5m])) / sum(rate(http_requests_total{{service="{service}"}}[5m]))'
    url = f"http://prometheus:9090/api/v1/query?query={urllib.request.quote(query)}"
    with urllib.request.urlopen(url) as resp:
        data = json.load(resp)
    results = data["data"]["result"]
    return float(results[0]["value"][1]) if results else 0.0

def restart_deployment(namespace: str, deployment: str) -> None:
    subprocess.run(
        ["kubectl", "rollout", "restart", f"deployment/{deployment}", "-n", namespace],
        check=True
    )
    print(f"Restarted {namespace}/{deployment}")

if __name__ == "__main__":
    service, namespace, deployment = sys.argv[1], sys.argv[2], sys.argv[3]
    rate = get_error_rate(service)
    print(f"Error rate for {service}: {rate:.2%}")
    if rate > ERROR_THRESHOLD:
        restart_deployment(namespace, deployment)
    else:
        print("Within SLO threshold — no action required")

Documentation

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: jeffallan
リポジトリ: jeffallan/claude-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/jeffallan/claude-skills / ライセンス: MIT

sre-engineer

SKILL.md 本文

SRE エンジニア

コアワークフロー

リファレンスガイド

制約

実施すべき項目

実施してはならない項目

出力テンプレート

具体例

SLO 定義とエラーバジェット計算

Prometheus SLO アラートルール (マルチウィンドウバーンレート)

PromQL ゴールデンシグナルクエリ

Toil 自動化スクリプト (Python)

詳細情報

関連スキル

newsblur-cli

caveman-compress

find-skills

planning-and-task-breakdown

docx

idea-refine