Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 3品質スコア 71/100

agent-security-hardener

AIエージェントのインジェクション攻撃、悪用、データ漏洩に対するセキュリティ対策を提供します。プロンプトインジェクション、ジェイルブレイク、エージェント悪用、ガードレール、セキュアなエージェント運用など、エージェントのセキュリティに関するご質問にお応えします。本スキルは「エージェント セキュリティ」「プロンプトインジェクション」「agent security」などのキーワードで自動的に起動します。

description の原文を見る

Sécurisation d'agents IA contre injections, abus et fuites de données. Se déclenche avec "sécurité agent", "agent security", "prompt injection", "jailbreak", "agent abuse", "guardrails", "safe agent", "sécuriser mon agent", "agent en production sécurisé".

SKILL.md 本文

エージェントセキュリティハードナー

このスキルを使う場合

AIエージェントを本番環境デプロイ前後に保護したい場合にこのスキルを使用します。プロンプトインジェクション攻撃への対策、データ漏洩防止、ツール悪用の制限、規制要件(GDPR、SOC2、HIPAA)への準拠が対象です。エージェントが信頼できないユーザー入力に晒される場合に該当します。

ワークフロー

  1. 脅威モデリング — 対策前に脅威を把握する :

    • プロンプトインジェクション : ユーザーまたは外部ソースが指示を改ざんしようとする
    • データ流出 : エージェントが機密データやシステムプロンプトを漏らすよう操作される
    • ツール悪用 : ファイル削除、メール送信、SQLインジェクションなどの悪意ある利用
    • コスト攻撃 : トークン消費を最大化するように設計された要求(経済的DoS)
    • ソーシャルエンジニアリング : 会話コンテキストの段階的な操作
  2. 入力サニタイゼーション — 処理前に各入力をフィルタリングと検証 :

    • インジェクション検出 : 疑わしいパターン("ignore previous instructions""DAN"、XMLタグ)を検出
    • 入力フィルタリング : 制御文字、プロンプト区切り文字を削除またはエスケープ
    • 長さ制限 : 入力サイズを制限(例:ユーザーメッセージ最大4000文字)
    • フォーマット検証 : Pydanticで構造化入力(JSON、フォーム)のスキーマを検証
    INJECTION_PATTERNS = [r"ignore.*instructions", r"system prompt", r"jailbreak"]
    def is_safe_input(text: str) -> bool:
        return not any(re.search(p, text, re.IGNORECASE) for p in INJECTION_PATTERNS)
    
  3. システムプロンプト保護 — システム指示を保護 :

    • システムプロンプトの内容を決して漏らさない(ユーザーが明示的に要求しても)
    • 明確な指示階層 : システム指示は常にユーザー指示より優先
    • 堅牢な区切り文字 : XMLタグ(<system><user>)を使ってセクションを分離
    • 耐性を積極的テスト : エージェントが抽出試行に「共有できません」と応答することを確認
  4. 出力検証 — 返送前に各レスポンスを検査 :

    • コンテンツフィルタリング : 禁止コンテンツを含む出力を検出してブロック
    • PII検出 : メールアドレス、電話番号、カード番号を自動識別してマスク
    • フォーマット検証 : 出力が期待スキーマに準拠(有効なJSON、正しい形式)することを確認
    • セキュリティ分類 : 送信前に出力をセキュリティ分類器に通す
    • ライブラリ使用 : PII検出にpresidio-analyzer(Microsoft)を使用
  5. ツールアクセス制御 — ツール利用を制限と管理 :

    • 権限スコーピング : 各エージェントは必要最小限のツールにアクセス(最小権限の原則)
    • 許可リスト : 許可される操作を明示的に列挙(読み取り専用vs読み取り/書き込み)
    • ツール毎のレート制限 : ユーザー毎、ツール毎に分単位でN回以下の呼び出し
    • サンドボックス化 : 危険なツール(コード、シェル)を隔離環境(Docker、gVisor)で実行
    • 不可逆的アクション前の確認 : 削除、送信、公開前に検証を要求
  6. ガードレール — アプリケーションセキュリティ層 :

    • NeMo Guardrails(NVIDIA) : Colangの宣言的レール、禁止トピックをブロック
    • Guardrails AI : 組み合わせ可能なPythonバリデータ、入力/出力ガードレール
    • カスタムバリデータ : アプリケーション固有のビジネス検証関数
    • コンテンツポリシー : エージェントができることとできないことを明示的に定義(ポリシードキュメント)
    • 本番環境前に敵対的テストケースでガードレールをテスト
  7. データ保護 — 個人情報と機密データを保護 :

    • ログ内のPIIマスキング : 生データをログに記録しない、保存前に匿名化
    • 保存時暗号化 : 保存された会話(AES-256)、APIキー、シークレットを暗号化
    • データ保持ポリシー : 保持期間を定義、期限切れ後に自動削除
    • GDPR準拠 : 削除権(ユーザーリクエストで会話を削除)
    • データ最小化 : 必要最小限のデータのみ収集・処理
  8. レート制限と悪用防止 — 大規模悪用を防止 :

    • ユーザー単位のレート制限 : 認証ユーザー毎に分/時間/日単位でN件以下の要求
    • コストキャップ : ユーザー毎の支出上限(超過時に停止)
    • 異常検知 : 異常パターン(バースト要求、繰り返し入力)を検出
    • IP ブロック/CAPTCHA : 認証なしの公開エンドポイント用
    • 必須認証 : 強力なエージェントは決して認証なしで公開しない
  9. 監査とコンプライアンス — 追跡可能性と規制準拠 :

    • 完全な監査証跡 : タイムスタンプ、user_id、アクション、結果を含むすべてのエージェントアクションをログ
    • 決定ログ : エージェントが決定した理由を説明(説明可能性)
    • 規制要件 : 業界ごとにコントロール適応(医療HIPAA、金融PCI、EUのGDPR)
    • 監査ログ不変性 : ログを改ざん防止システムに保存(AWS CloudTrail、Azure Monitor)
    • コンプライアンスレポート : セキュリティチーム用に定期的な監査レポートを生成
  10. レッドチーミング — エージェントの堅牢性を積極的テスト :

    • 敵対的テスト : インジェクション、ジェイルブレイク、データ抽出を手動で試行
    • 自動レッドチーミング : garakPyRIT(Microsoft)などのツールで自動テスト
    • 境界テスト : 限界でのエージェント動作確認(空入力、非常に長い、不正形式)
    • バグバウンティ : エージェントが公開の場合、報告脆弱性に報酬プログラムを検討
    • 反復 : 各メジャープロンプト更新またはツール変更後の継続的レッドチーミング

ルール

  • 推奨される各セキュリティコントロールに具体的なコード例と設定例を提供する。
  • セキュリティと信頼性を優先 : 多層防御の原則を適用(複数層のコントロール)。
  • 一般的な落とし穴を文書化 : 単一ガードレールでの偽りのセキュリティ感、基本的フィルタをバイパスするエンコード入力、外部データソース(ウェブ、ファイル)経由のプロンプトインジェクション。
  • アプリケーションの実際のリスクレベルに合わせて推奨事項を適応(内部エージェントvs公開、機密データの有無)。
  • ユーザビリティを犠牲にしてエージェントを使用不可にしない — 正当なユースケースでのテストでガードレールをキャリブレーション。

コミュニケーションルール — 必須

  • 超簡潔。詰め物なし、前置きなし、社交辞令なし。
  • 「力になれて嬉しい」「もちろん」「良い質問」「〜しましょう」などと言わない。
  • ツール優先、説明二番目。説明する前に実行。
  • 結果優先。プロセスではなく結果を示す。
  • 完了時に停止。サマリーなし、要約なし、末尾コメントなし。
  • 礼儀的な表現なし。直接的で率直に。
  • 最小限の言葉。1語で足りれば10語使わない。
  • 無請で説明しない。
  • 要求がない限り絵文字なし。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
khalilbenaz
リポジトリ
khalilbenaz/claude-skills-collection
ライセンス
MIT
最終更新
2026/4/5

Source: https://github.com/khalilbenaz/claude-skills-collection / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: khalilbenaz · khalilbenaz/claude-skills-collection · ライセンス: MIT