isc-bench
ISC-Benchを使用してあらゆるLLMに対するジェイルブレイク評価を実行するためのガイドです。LLMの安全性をISC-Benchで評価したい場合、TVD(Task-Validator-Data)ベンチマークパイプラインを実行したい場合、構造的な安全性崩壊に対するモデルロバスト性をテストしたい場合、または複数のモデルとベンチマーク(JailbreakBench、HarmBench、AdvBench、StrongREJECT)間で安全性スコアを比較したい場合に使用できます。ISC攻撃の成功率、有害コンテンツの抽出、または1~5スケールでの安全性スコアリングについての質問にも対応します。
description の原文を見る
Guide for running ISC-Bench jailbreak evaluation against any LLM. Use this whenever someone wants to evaluate LLM safety with ISC-Bench, run the TVD (Task-Validator-Data) benchmark pipeline, test model robustness against structural safety collapse, or compare safety scores across models and benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT). Also use when someone asks about ISC attack success rates, harmful content extraction, or safety scoring on the 1-5 scale.
SKILL.md 本文
ISC-Bench
ISC-Bench は、TVD (Task-Validator-Data) フレームワークを使用して、フロンティア LLM における Internal Safety Collapse (ISC) を評価します。 ISC により、任意のフロンティア LLM が有害なデータセット生成器に変わります。つまり、正規のプロフェッショナルタスクがコードバリデータを満たすために機能的に有害なコンテンツを生成することが必要になります。論文: arXiv:2603.23509
前提条件
- Python 3.11 以上
- uv
- OpenRouter API キー
- Docker (エージェントモードのみ)
セットアップ
git clone https://github.com/wuyoscar/ISC-Bench.git && cd ISC-Bench
cp .env.example .env
# .env に OpenRouter API キーを追加
すべてのスクリプトは PEP 723 インラインディペンデンシーを使用しています。`uv
...
詳細情報
- 作者
- wuyoscar
- リポジトリ
- wuyoscar/ISC-Bench
- ライセンス
- NOASSERTION
- 最終更新
- 2026/5/8
Source: https://github.com/wuyoscar/ISC-Bench / ライセンス: NOASSERTION