汎用LLM・AI開発⭐ リポ 773品質スコア 98/100

isc-bench

Name: isc-bench
Author: wuyoscar

ISC-Benchを使用してあらゆるLLMに対するジェイルブレイク評価を実行するためのガイドです。LLMの安全性をISC-Benchで評価したい場合、TVD（Task-Validator-Data）ベンチマークパイプラインを実行したい場合、構造的な安全性崩壊に対するモデルロバスト性をテストしたい場合、または複数のモデルとベンチマーク（JailbreakBench、HarmBench、AdvBench、StrongREJECT）間で安全性スコアを比較したい場合に使用できます。ISC攻撃の成功率、有害コンテンツの抽出、または1～5スケールでの安全性スコアリングについての質問にも対応します。

description の原文を見る

Guide for running ISC-Bench jailbreak evaluation against any LLM. Use this whenever someone wants to evaluate LLM safety with ISC-Bench, run the TVD (Task-Validator-Data) benchmark pipeline, test model robustness against structural safety collapse, or compare safety scores across models and benchmarks (JailbreakBench, HarmBench, AdvBench, StrongREJECT). Also use when someone asks about ISC attack success rates, harmful content extraction, or safety scoring on the 1-5 scale.

SKILL.md 本文

注意: このスキルのライセンスは NOASSERTION (未指定) です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

ISC-Bench

ISC-Bench は、TVD (Task-Validator-Data) フレームワークを使用して、フロンティア LLM における Internal Safety Collapse (ISC) を評価します。 ISC により、任意のフロンティア LLM が有害なデータセット生成器に変わります。つまり、正規のプロフェッショナルタスクがコードバリデータを満たすために機能的に有害なコンテンツを生成することが必要になります。論文: arXiv:2603.23509

前提条件

Python 3.11 以上
uv
OpenRouter API キー
Docker (エージェントモードのみ)

セットアップ

git clone https://github.com/wuyoscar/ISC-Bench.git && cd ISC-Bench
cp .env.example .env
# .env に OpenRouter API キーを追加

すべてのスクリプトは PEP 723 インラインディペンデンシーを使用しています。`uv

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: wuyoscar
リポジトリ: wuyoscar/ISC-Bench
ライセンス: NOASSERTION
最終更新: 2026/5/8

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/wuyoscar/ISC-Bench / ライセンス: NOASSERTION

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv

汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI

汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI

汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI

汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench

汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev