Agent Skills by ALSEL
汎用音声・動画・メディア⭐ リポ 2品質スコア 59/100

complex-image-editing

複雑な画像編集指示をより単純な部分タスクに分解し、自動生成されたコントロールガイダンスを提供します。複数オブジェクトの編集に対応し、周辺領域のアイデンティティを保持しながら、手動でのマスク作成を不要にします。

description の原文を見る

Decompose complex image editing instructions into simpler sub-tasks with automatically generated control guidance. Handles multi-object edits, preserves identity of surrounding regions, and eliminates manual mask creation.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

X-Planner: 複雑な指示から計画ベースの画像編集を実現

複雑な指示に基づく画像編集には、単純なピクセル操作以上の処理が必要です。ユーザーが「建物をより高くして、空をより劇的にしてほしい」と言った場合、システムはこれら2つが異なるオブジェクトを対象とした別々の編集であることを理解し、それぞれの正確な境界線を生成し、隣接する領域への漏れ込みなしに適切な変換を適用する必要があります。X-Plannerは複雑な指示をより処理しやすいサブタスクに分解することで、編集モデルを誘導するマスクと制御信号を自動的に生成してこの問題を解決します。

主な課題は、複雑な指示が間接的に指定されることが多く、多くの場合複数のオブジェクトを対象としていることです。現在のアプローチでは、ユーザーにマスクを手動で提供させるか、アイデンティティ保持が重要な場合に失敗します。1つのオブジェクトを編集するとその周囲を破損させてしまいます。

コアコンセプト

X-Plannerは計画と実行を分離する3段階パイプラインとして機能します:

  1. 指示の分解: 複雑な指示をより単純な原子的なサブ指示に解析
  2. マスク生成: 各サブ指示に対して、編集タイプに合わせた正確なセグメンテーションマスクを生成
  3. バウンディングボックス予測: 挿入タスクの場合、新しいオブジェクトの空間

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認