汎用LLM・AI開発⭐ リポ 2品質スコア 59/100

svg-t2i-vfm-diffusion

Name: svg-t2i-vfm-diffusion
Author: ADu2021

テキスト・ツー・イメージ拡散モデルをフローズンのDINOv3特徴空間で直接学習させることができます。これにより、VAEベースの圧縮を排除できます。統一されたクロスモーダルトランスフォーマーを用いてVFM表現をネイティブな潜在多様体として活用することで、高解像度合成が実現できます。

description の原文を見る

Train text-to-image diffusion models directly in frozen DINOv3 feature spaces, eliminating VAE-based compression. Enables high-resolution synthesis by leveraging VFM representations as native latent manifolds with unified cross-modal transformers.

SKILL.md 本文

スキル概要

このアプローチは、テキストから画像への生成における従来のVAEエンコーダーを、凍結されたビジュアルファンデーションモデル(DINOv3)の特徴量に置き換え、高次元のVFM空間で直接ディフュージョンを実行します。テキストと画像のトークン処理に統一されたNext-DiTトランスフォーマーバックボーンを使用することで、競争力のある生成品質(GenEval 0.75)を達成しながら、VFM表現が明示的な圧縮なしに効果的な潜在多様体として機能できることを検証します。

使用する場合

事前学習されたビジョンファンデーションモデルを活用したいテキストから画像への生成システムを構築する場合
VAEのボトルネックなしに潜在空間のセマンティクスを直接制御する必要があるプロジェクト
高次元特徴空間の操作が計算上実現可能なシナリオ
標準的なVAEベースのディフュージョン圧縮の代替案を探索している研究

使用しない場合

レイテンシに敏感な推論シナリオ(VFM特徴量はVAE潜在量より高次元)
GPU VRAMが不足しているメモリ制約のあるデプロイメント
エッジデバイスでのリアルタイム生成が必要なアプリケーション
VAEベースのT2Iパイプラインに既に大きく投資されており、切り替えコストが利益を上回るプロジェクト

コア技術

このメソッドは3つの主要コンポーネントを採用しています:

1. VFM表現の選択 凍結されたDINOv3特徴量がVAEエンコーディングを置き換えます。2つのバリアントが存在します:

Autoencoder-P (Pure): DINO特徴量を直接使用
Autoencoder-R (Residual): 詳細補償のオプションの残差ブランチを追加

2. 統一Next-DiTアーキテクチャ テキストと画像のトークンを、ディフュージョントランスフォーマーバックボーン内の単一ストリームとして共同処理し、個別のエンコーダーデコーダーパスウェイなしに自然なクロスモーダルインタラクションを実現します。

3. マルチステージトレーニング戦略 低から高解像度までの4段階を通じた段階的なトレーニング。ディフュージョン目的関数としてフローマッチングを使用します。この段階的アプローチにより、高解像度出力への効率的なスケーリングが可能になります。

実装に関する注記

凍結されたDINOv3特徴量を潜在表現として抽出します。テキストと画像のトークン処理を共有する統一Next-DiTを初期化します。段階的な解像度段階をまたがってフローマッチングでトレーニングします。このアプローチは、ピクセル圧縮されたVAE空間ではなくセマンティックVFM空間で動作しながら、標準的なディフュージョンサンプリング技術との互換性を維持します。

参考文献

オリジナル論文: SVG-T2I (2025年12月)
DINO v3 ビジョンファンデーションモデルドキュメンテーション
Next-DiTアーキテクチャ仕様
フローマッチングディフュージョンフレームワーク

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: ADu2021
リポジトリ: ADu2021/skillXiv
ライセンス: MIT
最終更新: 2026/3/26

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT

svg-t2i-vfm-diffusion

SKILL.md 本文

スキル概要

使用する場合

使用しない場合

コア技術

実装に関する注記

参考文献

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui