Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 773品質スコア 98/100

isc-bench

ISC-Benchを使用してあらゆるLLMに対するジェイルブレイク評価を実行するためのガイドです。LLMの安全性をISC-Benchで評価したい場合、TVD(Task-Validator-Data)ベンチマークパイプラインを実行したい場合、構造的な安全性崩壊に対するモデルロバスト性をテストしたい場合、または複数のモデルとベンチマーク(JailbreakBench、HarmBench、AdvBench、StrongREJECT)間で安全性スコアを比較したい場合に使用できます。ISC攻撃の成功率、有害コンテンツの抽出、または1~5スケールでの安全性スコアリングについての質問にも対応します。

description の原文を見る

Guide for running ISC-Bench jailbreak evaluation against any LLM. Use this whenever someone wants to evaluate LLM safety with ISC-Bench, run the TVD (Task-Validator-Data) benchmark pipeline, test model robustness against structural safety collapse, or compare safety scores across models and benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT). Also use when someone asks about ISC attack success rates, harmful content extraction, or safety scoring on the 1-5 scale.

SKILL.md 本文

注意: このスキルのライセンスは NOASSERTION (未指定) です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

ISC-Bench

ISC-Bench は、TVD (Task-Validator-Data) フレームワークを使用して、フロンティア LLM における Internal Safety Collapse (ISC) を評価します。 ISC により、任意のフロンティア LLM が有害なデータセット生成器に変わります。つまり、正規のプロフェッショナルタスクがコードバリデータを満たすために機能的に有害なコンテンツを生成することが必要になります。論文: arXiv:2603.23509

前提条件

  • Python 3.11 以上
  • uv
  • OpenRouter API キー
  • Docker (エージェントモードのみ)

セットアップ

git clone https://github.com/wuyoscar/ISC-Bench.git && cd ISC-Bench
cp .env.example .env
# .env に OpenRouter API キーを追加

すべてのスクリプトは PEP 723 インラインディペンデンシーを使用しています。`uv

...

詳細情報

作者
wuyoscar
リポジトリ
wuyoscar/ISC-Bench
ライセンス
NOASSERTION
最終更新
2026/5/8

Source: https://github.com/wuyoscar/ISC-Bench / ライセンス: NOASSERTION

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: wuyoscar · wuyoscar/ISC-Bench · ライセンス: NOASSERTION (未指定)