stagevar-acceleration
ビジュアル自己回帰(VAR)画像生成を再トレーニングなしで3.4倍高速化します。生成段階を分析し、詳細調整段階におけるセマンティック無関連性を活用します。その段階ではクラシファイアフリーガイダンスが冗長になり、特徴量が低ランク構造を持つため、出力品質を保ちながら次元削減が可能になります。
description の原文を見る
Accelerate visual autoregressive (VAR) image generation 3.4× without retraining by analyzing generation stages. Exploits semantic irrelevance in detail-refinement stages where classifier-free guidance becomes redundant and features exhibit low-rank structure—enabling dimensionality reduction while preserving output quality.
SKILL.md 本文
概要
StageVARは、画像コンテンツがどのように段階的に構築されるかを分析することで、ビジュアルオートリグレッシブモデルの計算ボトルネックに対処します。初期段階は意味構造を構築し、中盤段階は空間配置を確立し、後期段階は詳細を洗練します。このステージ構造は、単一パス処理では利用できない最適化の機会を明らかにします。
コア技術
重要な洞察は、生成ステージが根本的に異なる計算要件を持つということです。
3段階分析フレームワーク: このメソッドは異なる最適化可能性を持つ異なるフェーズを識別します:
# Stage-aware generation analysis
class StageAwareVAR:
def analyze_generation(self, model):
"""
Identify three distinct generation stages with different
properties and optimization opportunities.
"""
stages = {
'semantic': {
'steps': 'early',
'property': 'establishes what image depicts',
'optimization': 'none (preserve)'
},
'structure': {
'steps': 'middle',
'property': 'defines spatial arrangement',
'optimization': 'none (preserve)'
},
'refinement': {
'steps': 'late',
'property': 'adds fine details',
'optimization': 'heavy (exploit low-rank, drop guidance)'
}
}
return stages
意味的無関性の活用: 洗練段階では、テキスト条件付けが高レベルの概念にのみ影響し、細部には影響しないため、分類器フリーガイダンスは不要になります。
def accelerate_refinement_stage(model, text_conditioning):
"""
In detail-refinement stages, text conditioning is semantically
irrelevant. Setting guidance to zero yields negligible quality loss.
"""
# Standard generation with guidance in early/middle stages
semantic_features = generate_with_guidance(text_conditioning)
# Refinement stage: disable guidance
refined_features = generate_without_guidance(semantic_features)
return refined_features
低ランク構造の活用: 洗練段階の特徴は低ランク特性を示し、次元削減を可能にします。
def reduce_refinement_computation(features):
"""
Refinement features have low-rank structure.
Project to reduced feature space for faster computation.
"""
# Random projection to lower dimension
projection_matrix = random_projection(features.shape, reduced_dim=64)
reduced_features = features @ projection_matrix
# Compute efficiently in reduced space
refined = model(reduced_features)
# Restore to full dimension via representative token recovery
restored = restore_full_resolution(refined)
return restored
このテクニックを使用する場合
以下の場合、StageVARを使用します:
- ビジュアルオートリグレッシブ画像生成を高速化する
- モデルが次スケール予測パターンに従う
- 推論速度が重要である
- 品質許容度が小さなメトリクスの低下を許容する(GenEval 0.01)
このテクニックを使用しない場合
以下の場合は、このアプローチを避けます:
- 非階層的な生成モデル(ステージ分析は効果がない)
- 厳密な品質要件(小さな低下も受け入れられない)
- 初期段階の最適化が必要(詳細洗練がボトルネック)
- カスタム生成スケジュールが意味的/構造的/洗練ステージにマップされない
実装に関する注記
フレームワークはトレーニング不要であり、以下が必要です:
- VARモデルの生成ステージの分析
- 選別的ガイダンス削除の実装
- 次元削減用のランダム射影
- 代表的トークン復元メカニズム
主要なパフォーマンス
- 最小限の品質損失で3.4倍の高速化
- GenEvalメトリクスの低下:わずか0.01
- 再トレーニング不要
- さまざまなVARアーキテクチャに適用可能
参考資料
- オートリグレッシブ画像生成のステージ認識分析
- 詳細洗練フェーズにおける意味的無関性
- 特徴空間における低ランク構造の活用
- トレーニング不要の高速化方法論
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- MIT
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。