flow-map-trajectory-tilting
フロー地図をルックアヘッド演算子として使用し、ノイジング除去の各ステップで軌跡の終点を予測することで、報酬ガイド付き拡散を実現します。生成プロセス全体で意味のある勾配を保ちながら、拡散軌跡に報酬や嗜好を適用する場合に活用できます。
description の原文を見る
Uses flow maps as look-ahead operators to enable principled reward-guided diffusion by predicting trajectory endpoints at any denoising step. Deploy when applying rewards or preferences to diffusion trajectories with meaningful gradients throughout generation.
SKILL.md 本文
概要
Test-Time Scaling of Diffusions は Flow Map Trajectory Tilting (FMTT) を導入しており、フローマップを「先読み」演算子として活用することで、原理に基づいた報酬ガイダンス生成を実現します。ヒューリスティックなノイズ除去器の近似を用いる代わりに、FMTT はフローマップを使用して、生成プロセス中のあらゆるポイントで軌跡がどこに到達するかを正確に予測し、ノイズ除去全体を通じて意味のある報酬勾配を実現します。
コア技術
予測器としてのフローマップ: フローマップ φ_t は、任意のタイムステップ t における最終出力を予測します。勾配をヒューリスティックに近似する代わりに、FMTT はフローマップを使用して「この報酬の方向に一歩進めば、この軌跡はどこに到達するのか?」という計算を行います。これにより、ノイズ除去全体を通じて正確な報酬信号が実現されます。
軌跡重要度重み付け: 報酬ガイダンス用の重要度重みは、フローマップ軌跡に沿った報酬の積分に帰着します (命題 2.2)。この原理に基づいた重み付けにより、初期段階の軌跡決定が、後段の洗練に対して適切にペナルティを受けます。
報酬勾配計算: フローマップ予測を通じてバックプロパゲーションを行い、dℒ/dz_t を計算します。勾配は、報酬関数の下で予測された最終出力を改善する潜在空間内の方向を示します。
実装
フローマップのトレーニング: 任意の中間状態から最終出力を予測するフローマッチングモデルをトレーニングするか、事前トレーニング済みのモデルをロードします。これはすべての下流の報酬ガイダンス用の先読み演算子として機能します。
報酬関数の統合: 生成された画像上で報酬 r(x) を定義します。推論中のステップ t において、gradient = ∇_{z_t} r(φ_t(z_t)) を使用して軌跡の更新をガイドします。
重要度重みの計算: weight_t = ステップ t から最終ステップまでの軌跡に沿った報酬の積分を計算します。最終報酬に大きな影響を与える決定を含むステップは、より高い重みを付与されます。
多段階統合: 重み付けされた勾配を使用して軌跡を更新します: z_{t-1} = z_t - α * weight_t * gradient、ここで α は報酬強度を制御する温度パラメータです。
使用場合
- 拡散生成に対するユーザー選好または品質報酬を適用する場合
- ヒューリスティック近似がアーティファクトを導入するガイダンスタスク
- 生成全体を通じて安定した意味のある報酬勾配が必要なシナリオ
- 中間軌跡の決定が重要な品質-多様性トレードオフ
使用しない場合
- 無条件またはシンプルなクラシファイアベースのガイダンスで十分なタスク
- フローマップにアクセスするか、トレーニングする能力がないシナリオ
- 報酬計算が拡散ステップよりも遅いアプリケーション
- フローマップ近似が不正確またはズレているモデル
主要参考文献
- 生成モデルにおけるフローマッチングと最適輸送
- 拡散における軌跡予測と先読み演算子
- 報酬ガイダンス生成と選好学習
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- MIT
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。