汎用LLM・AI開発⭐ リポ 2品質スコア 59/100
svg-t2i-vfm-diffusion
テキスト・ツー・イメージ拡散モデルをフローズンのDINOv3特徴空間で直接学習させることができます。これにより、VAEベースの圧縮を排除できます。統一されたクロスモーダルトランスフォーマーを用いてVFM表現をネイティブな潜在多様体として活用することで、高解像度合成が実現できます。
description の原文を見る
Train text-to-image diffusion models directly in frozen DINOv3 feature spaces, eliminating VAE-based compression. Enables high-resolution synthesis by leveraging VFM representations as native latent manifolds with unified cross-modal transformers.
SKILL.md 本文
注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。
スキル概要
このアプローチは、テキストから画像への生成における従来のVAEエンコーダーを、凍結されたビジュアルファンデーションモデル(DINOv3)の特徴量に置き換え、高次元のVFM空間で直接ディフュージョンを実行します。テキストと画像のトークン処理に統一されたNext-DiTトランスフォーマーバックボーンを使用することで、競争力のある生成品質(GenEval 0.75)を達成しながら、VFM表現が明示的な圧縮なしに効果的な潜在多様体として機能できることを検証します。
使用する場合
- 事前学習されたビジョンファンデーションモデルを活用したいテキストから画像への生成システムを構築する場合
- VAEのボトルネックなしに潜在空間のセマンティクスを直接制御する必要があるプロジェクト
- 高次元特徴空間の操作が計算上実現可能なシナリオ
- 標準的なVAEベースのディフュージョン圧縮の代替案を探索している研究
使用しない場合
- レイテンシに敏感な推論シナリオ(VFM特徴量はVAE潜在量より高次元)
- GPU VRAMが不足している メモリ制約のあるデプロイメント
- エッジデバイスでのリアルタイム生成が必要なアプリケーション
- VAEベースのT2Iパイプラインに既に大きく投資されており、切り替えコストが利益を上回るプロジェクト
コア技術
このメソ
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定