Agent Skills by ALSEL
Anthropic Claude音声・動画・メディア⭐ リポ 1品質スコア 53/100

processing-computer-vision-tasks

物体検出、分類、セグメンテーションを用いた画像処理が可能です。「画像を分析する」「物体検出」「画像分類」「コンピュータビジョン」といったリクエストが必要な場合にご利用ください。スキルの目的に応じた関連フレーズでトリガーされます。

description の原文を見る

Process images using object detection, classification, and segmentation. Use when requesting "analyze image", "object detection", "image classification", or "computer vision". Trigger with relevant phrases based on skill purpose.

SKILL.md 本文

コンピュータビジョンプロセッサ

このスキルはコンピュータビジョンプロセッサタスクの自動支援を提供します。

概要

このスキルはコンピュータビジョンプロセッサタスクの自動支援を提供します。 このスキルにより、Claudeはコンピュータビジョンプロセッサプラグインを活用して画像を分析し、オブジェクトを検出し、意味のある情報を抽出できます。コンピュータビジョンワークフローを自動化し、パフォーマンスを最適化し、画像コンテンツに基づいた詳細なインサイトを提供します。

仕組み

  1. リクエストの分析: Claudeはユーザーのリクエストとトリガー用語に基づいて、コンピュータビジョン処理の必要性を識別します。
  2. コード生成: Claudeはコンピュータビジョンプロセッサプラグインと連携するための適切なPythonコードを生成し、目的の分析タイプ(例:オブジェクト検出、画像分類)を指定します。
  3. タスク実行: 生成されたコードは/process-visionコマンドを使用して実行され、画像を処理して結果を返します。

このスキルを使用する場合

以下のことが必要な場合にこのスキルが起動します:

  • 特定のオブジェクトまたは機能について画像を分析する。
  • 画像を事前に定義されたカテゴリに分類する。
  • 異なる領域またはオブジェクトを識別するために画像をセグメント化する。

例1: オブジェクト検出

ユーザーリクエスト:「この画像を分析して、すべての車と歩行者を識別してください。」

スキルは以下を実行します:

  1. コンピュータビジョンプロセッサプラグインを使用して提供された画像に対してオブジェクト検出を実行するコードを生成します。
  2. 検出された各車と歩行者に対するバウンディングボックスとラベルのリストを返します。

例2: 画像分類

ユーザーリクエスト:「この画像を分類してください。猫ですか、それとも犬ですか?」

スキルは以下を実行します:

  1. コンピュータビジョンプロセッサプラグインを使用して提供された画像に対して画像分類を実行するコードを生成します。
  2. 信頼度スコアとともに分類結果(例:「猫」または「犬」)を返します。

ベストプラクティス

  • データ検証: 入力画像が対応形式および解像度であることを確認するため、常に検証します。
  • エラーハンドリング: 画像処理中の潜在的な問題に対応するための堅牢なエラーハンドリングを実装します。
  • パフォーマンス最適化: 特定のタスクのパフォーマンスを最適化するために、適切なコンピュータビジョン技術とパラメータを選択します。

統合

このスキルはコンピュータビジョンプロセッサプラグインが提供する/process-visionコマンドを利用します。レポート生成や検出されたオブジェクトに基づくアクション実行など、コンピュータビジョン分析の結果をさらに処理するために、他のスキルと統合できます。

前提条件

  • 適切なファイルアクセス権限
  • 必要な依存関係のインストール

手順

  1. トリガー条件が満たされた場合にこのスキルを呼び出します
  2. 必要なコンテキストとパラメータを提供します
  3. 生成された出力を確認します
  4. 必要に応じて修正を適用します

出力

このスキルはタスクに関連する構造化された出力を生成します。

エラーハンドリング

  • 無効な入力: 修正の入力を促します
  • 不足している依存関係: 必要なコンポーネントをリストアップします
  • パーミッションエラー: 改善ステップを提案します

リソース

  • プロジェクトドキュメント
  • 関連スキルとコマンド

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
Brmbobo
リポジトリ
Brmbobo/Web2podcast
ライセンス
MIT
最終更新
2026/1/26

Source: https://github.com/Brmbobo/Web2podcast / ライセンス: MIT

関連スキル

汎用音声・動画・メディア⭐ リポ 1,982

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 1,982

best-youtube-video-editor

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31
汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer
OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai
汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: Brmbobo · Brmbobo/Web2podcast · ライセンス: MIT