Agent Skills by ALSEL
Anthropic Claude個人生産性⭐ リポ 0品質スコア 50/100

sre-engineer

サービスレベル目標(SLI/SLO)の定義、エラーバジェットポリシーの策定、インシデント対応手順の設計、キャパシティモデルの構築、本番システム向けの監視設定や自動化スクリプトの作成を行います。SLI/SLOの定義、エラーバジェット管理、大規模システムの信頼性向上、インシデント管理、カオスエンジニアリング、トイル削減、キャパシティプランニングが必要な場面で活用してください。

description の原文を見る

Defines service level objectives, creates error budget policies, designs incident response procedures, develops capacity models, and produces monitoring configurations and automation scripts for production systems. Use when defining SLIs/SLOs, managing error budgets, building reliable systems at scale, incident management, chaos engineering, toil reduction, or capacity planning.

SKILL.md 本文

SRE エンジニア

コアワークフロー

  1. 信頼性の評価 - アーキテクチャ、SLO、インシデント、toil レベルをレビュー
  2. SLO の定義 - 意味のある SLI を特定して適切なターゲットを設定
  3. 整合性の確認 - SLO ターゲットがユーザー期待を反映していることを確認してから進める
  4. 監視の実装 - ゴールデンシグナルダッシュボードとアラートを構築
  5. Toil の自動化 - 反復的なタスクを特定して自動化を構築
  6. 弾力性のテスト - カオスエンジニアリング実験を設計・実行。回復が RTO/RPO ターゲットを満たすことを検証してから実験完了とする。回復動作をエンドツーエンドで検証

リファレンスガイド

コンテキストに基づいて詳細なガイダンスを読み込む:

トピックリファレンス読み込み時機
SLO/SLIreferences/slo-sli-management.mdSLO の定義、エラーバジェットの計算時
エラーバジェットreferences/error-budget-policy.mdバジェットの管理、バーンレート、ポリシー時
監視references/monitoring-alerting.mdゴールデンシグナル、アラート設計、ダッシュボード時
自動化references/automation-toil.mdToil 削減、自動化パターン時
インシデントreferences/incident-chaos.mdインシデント対応、カオスエンジニアリング時

制約

実施すべき項目

  • 定量的な SLO を定義 (例: 99.9% の可用性)
  • SLO ターゲットからエラーバジェットを計算
  • ゴールデンシグナル (レイテンシ、トラフィック、エラー、飽和度) を監視
  • すべてのインシデントについて非難なしのポストモーテムを作成
  • Toil を測定して削減進捗を追跡
  • 反復的な運用タスクを自動化
  • カオスエンジニアリングで障害シナリオをテスト
  • 信頼性と機能リリース速度のバランスを取る

実施してはならない項目

  • ユーザーへの影響の正当性なしに SLO を設定
  • アクション可能なランブックなしに症状をアラート
  • 50% の toil を許容。自動化計画なし

  • ポストモーテムをスキップまたは非難を割り当て
  • 定期的なタスクに手動プロセスを実装
  • キャパシティプランなしでデプロイ
  • エラーバジェット枯渇を無視
  • グレースフルに劣化できないシステムを構築

出力テンプレート

SRE プラクティスを実装する場合、以下を提供します:

  1. SLI 測定値とターゲットを含む SLO 定義
  2. 監視・アラート設定 (Prometheus など)
  3. 自動化スクリプト (Python, Go, Terraform)
  4. 明確な改善ステップを含むランブック
  5. 信頼性への影響の簡潔な説明

具体例

SLO 定義とエラーバジェット計算

# 30日間における 99.9% 可用性 SLO
# 許容ダウンタイム: (1 - 0.999) * 30 * 24 * 60 = 43.2 分/月
# エラーバジェット (リクエストベース): 0.001 * total_requests

# 例: 10M リクエスト/月 → 10,000 エラーバジェットリクエスト
# 週1で5,000エラーを消費した場合 → ウィンドウの25%で50%のバジェットを消費
# → エラーバジェットポリシーをトリガー: 非クリティカルリリースを凍結

Prometheus SLO アラートルール (マルチウィンドウバーンレート)

groups:
  - name: slo_availability
    rules:
      # 高速バーン: 1時間で2% バジェット (14.4倍バーンレート)
      - alert: HighErrorBudgetBurn
        expr: |
          (
            sum(rate(http_requests_total{status=~"5.."}[1h]))
            /
            sum(rate(http_requests_total[1h]))
          ) > 0.014400
          and
          (
            sum(rate(http_requests_total{status=~"5.."}[5m]))
            /
            sum(rate(http_requests_total[5m]))
          ) > 0.014400
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "High error budget burn rate detected"
          runbook: "https://wiki.internal/runbooks/high-error-burn"

      # 低速バーン: 6時間で5% バジェット (1倍バーンレート継続)
      - alert: SlowErrorBudgetBurn
        expr: |
          (
            sum(rate(http_requests_total{status=~"5.."}[6h]))
            /
            sum(rate(http_requests_total[6h]))
          ) > 0.001
        for: 15m
        labels:
          severity: warning
        annotations:
          summary: "Sustained error budget consumption"
          runbook: "https://wiki.internal/runbooks/slow-error-burn"

PromQL ゴールデンシグナルクエリ

# レイテンシ — リクエスト期間の99パーセンタイル
histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service))

# トラフィック — サービスごとのリクエスト/秒
sum(rate(http_requests_total[5m])) by (service)

# エラー — エラー率の割合
sum(rate(http_requests_total{status=~"5.."}[5m])) by (service)
  /
sum(rate(http_requests_total[5m])) by (service)

# 飽和度 — CPU スロットル比
sum(rate(container_cpu_cfs_throttled_seconds_total[5m])) by (pod)
  /
sum(rate(container_cpu_cfs_periods_total[5m])) by (pod)

Toil 自動化スクリプト (Python)

#!/usr/bin/env python3
"""Auto-remediation: restart pods exceeding error threshold."""
import subprocess, sys, json

ERROR_THRESHOLD = 0.05  # 5% error rate triggers restart

def get_error_rate(service: str) -> float:
    """Query Prometheus for current error rate."""
    import urllib.request
    query = f'sum(rate(http_requests_total{{status=~"5..",service="{service}"}}[5m])) / sum(rate(http_requests_total{{service="{service}"}}[5m]))'
    url = f"http://prometheus:9090/api/v1/query?query={urllib.request.quote(query)}"
    with urllib.request.urlopen(url) as resp:
        data = json.load(resp)
    results = data["data"]["result"]
    return float(results[0]["value"][1]) if results else 0.0

def restart_deployment(namespace: str, deployment: str) -> None:
    subprocess.run(
        ["kubectl", "rollout", "restart", f"deployment/{deployment}", "-n", namespace],
        check=True
    )
    print(f"Restarted {namespace}/{deployment}")

if __name__ == "__main__":
    service, namespace, deployment = sys.argv[1], sys.argv[2], sys.argv[3]
    rate = get_error_rate(service)
    print(f"Error rate for {service}: {rate:.2%}")
    if rate > ERROR_THRESHOLD:
        restart_deployment(namespace, deployment)
    else:
        print("Within SLO threshold — no action required")

Documentation

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
jeffallan
リポジトリ
jeffallan/claude-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/jeffallan/claude-skills / ライセンス: MIT

関連スキル

汎用個人生産性⭐ リポ 7,456

newsblur-cli

ターミナルからNewsBlurを管理できます。フィードの閲覧、ストーリーの検索、記事の保存・共有、インテリジェンス分類器の学習、新しいフィードの発見、ワークフローの自動化がNewsBlur CLIで実現します。ユーザーがNewsBlurアカウントを操作したい場合、フィードの確認、購読管理、またはニュース読み込みに関するスクリプト構築時に活用してください。

by samuelclay
汎用個人生産性⭐ リポ 58,643

caveman-compress

自然言語のメモリファイル(CLAUDE.md、todos、preferences)を「原始人形式」に圧縮し、入力トークンを削減します。技術的な内容、コード、URL、構造はすべて保持したまま圧縮します。圧縮版が元のファイルを上書きし、人間が読める形のバックアップはFILE.original.mdとして保存されます。トリガー:/caveman-compress FILEPATH または「compress memory file」

by JuliusBrussee
ALSEL独自Anthropic Claude個人生産性

find-skills

日本語の意図から Agent Skills を発見する。「楽天SEOのスキル探して」「PDFを処理したい」「データ分析を自動化したい」などの日本語リクエストに対応。Claude Code (CLI)、Codex、Gemini CLI、claude.ai (Web) いずれでも動作。日本最大の Agent Skills データベース「Agent Skills by ALSEL」(11,000件超、全件日本語化、ダウンロード可能スキル8,600件超) から、ユーザーの意図に合うスキルを推薦・インストール案内する。

by 株式会社ALSEL
汎用個人生産性⭐ リポ 39,967

planning-and-task-breakdown

仕事を順序立てたタスクに分割します。仕様書や要件が明確にあり、実装可能なタスクに分解する必要がある場合に利用してください。タスクが大きすぎて着手しづらい場合、スコープを見積もる必要がある場合、または並列で作業を進められる場合に活用できます。

by addyosmani
Anthropic Claude個人生産性⭐ リポ 132,723

docx

このスキルは、ユーザーがWord文書(.docxファイル)を作成、読み込み、編集、操作したいときに使用します。以下の場合に実行してください:「Word文書」「.docx」などの記述、または目次・見出し・ページ番号・レターヘッドなどのフォーマットを含む専門的な文書の作成リクエスト。また、.docxファイルのコンテンツ抽出・再編成、文書への画像挿入・置換、Word形式での検索置換、変更履歴やコメント機能の使用、コンテンツを整形したWord文書への変換の場合も対象です。ユーザーが「レポート」「メモ」「手紙」「テンプレート」などの成果物をWord形式または.docxファイルで求める場合はこのスキルを使用してください。PDF、スプレッドシート、Google Docs、文書作成と無関係なコーディングタスクには使用しないでください。

by anthropics
汎用個人生産性⭐ リポ 39,967

idea-refine

アイデアを反復的に改善します。構造化された発散的思考と収束的思考を通じて、アイデアを洗練させることができます。「idea-refine」または「ideate」を使用してトリガーします。

by addyosmani
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: jeffallan · jeffallan/claude-skills · ライセンス: MIT