complex-image-editing
複雑な画像編集指示をより単純な部分タスクに分解し、自動生成されたコントロールガイダンスを提供します。複数オブジェクトの編集に対応し、周辺領域のアイデンティティを保持しながら、手動でのマスク作成を不要にします。
description の原文を見る
Decompose complex image editing instructions into simpler sub-tasks with automatically generated control guidance. Handles multi-object edits, preserves identity of surrounding regions, and eliminates manual mask creation.
SKILL.md 本文
X-Planner: 複雑な指示から計画ベースの画像編集を実現
複雑な指示に基づく画像編集には、単純なピクセル操作以上の処理が必要です。ユーザーが「建物をより高くして、空をより劇的にしてほしい」と言った場合、システムはこれら2つが異なるオブジェクトを対象とした別々の編集であることを理解し、それぞれの正確な境界線を生成し、隣接する領域への漏れ込みなしに適切な変換を適用する必要があります。X-Plannerは複雑な指示をより処理しやすいサブタスクに分解することで、編集モデルを誘導するマスクと制御信号を自動的に生成してこの問題を解決します。
主な課題は、複雑な指示が間接的に指定されることが多く、多くの場合複数のオブジェクトを対象としていることです。現在のアプローチでは、ユーザーにマスクを手動で提供させるか、アイデンティティ保持が重要な場合に失敗します。1つのオブジェクトを編集するとその周囲を破損させてしまいます。
コアコンセプト
X-Plannerは計画と実行を分離する3段階パイプラインとして機能します:
- 指示の分解: 複雑な指示をより単純な原子的なサブ指示に解析
- マスク生成: 各サブ指示に対して、編集タイプに合わせた正確なセグメンテーションマスクを生成
- バウンディングボックス予測: 挿入タスクの場合、新しいオブジェクトの空間
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定