🎬音声・動画・メディア

全 181 件のスキル

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI

汎用音声・動画・メディア⭐ リポ 1,982

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI

汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31

汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット（フェイスパンまたはスプリットスクリーン）に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer

OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI（`scripts/text_to_speech.py`）を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai

汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換（CoreML + PyTorch対応）このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI

汎用音声・動画・メディア⭐ リポ 34,281

cli-anything-musescore

楽譜記譜用のCLI — トランスポーズ、PDF/音声/MIDI形式でのエクスポート、パート抽出、楽器管理に対応

by HKUDS

Anthropic Claude音声・動画・メディア⭐ リポ 299

blog-voice-analyzer

ブログコンテンツに対してAI Voice Analyzerを実行し、AI生成のような表現パターンを検出して、改善するための具体的な修正提案を取得できます。ブログ記事を公開する前にレビューや改善を行う際に活用できます。

by majiayu000

Anthropic Claude音声・動画・メディア⭐ リポ 299

batch-translate

複数の書籍をまとめて処理できます。分割ページ用の切り取り画像を生成し、全ページのOCR処理を実行して、文脈を考慮した翻訳を行います。書籍の処理、OCR、翻訳、またはバッチ処理が必要な場合に使用してください。

by majiayu000

Anthropic Claude音声・動画・メディア⭐ リポ 91

shorts

インタラクティブな長編から短編への動画変換ツールです。Claudeをオーケストレーターとして、長編動画からバイラル性の高いショート動画を抽出できます。faster-whisper（GPU対応）で文字起こしを実行し、Claudeが候補セグメントをスコアリングして対話的に提示します。ユーザーが選択・調整した後、Remotionで高品質なアニメーション字幕（Bold/Bounce/Cleanスタイル）をレンダリングし、FFmpegでプラットフォーム最適化ファイル（YouTube Shorts、TikTok、Instagram Reels）をエクスポートします。ユーザーが「shorts」「短編」「ショート」「クリップ抽出」「TikTok化」「リール化」「縦動画」「ショート作成」などと入力した時に使用します。

by AgriciDaniel

Anthropic Claude音声・動画・メディア⭐ リポ 171

pronunciation-specialist

歌詞の発音リスクをスキャンし、Sunoの誤発音を防止します。固有名詞、技術用語、同綴異音語、または英語以外の単語を含む歌詞を作成する場合に使用してください。

by bitwize-music-studio

汎用音声・動画・メディア⭐ リポ 149

content-core

外部ソースからテキストコンテンツを抽出できます。対応するソースはURL、PDF、ドキュメント、YouTubeビデオ、音声・動画ファイルなどです。URL、ファイル、メディアソースから内容を読み込んだり、分析したり、要約したりする必要がある場合に使用します。

by lfnovo

汎用音声・動画・メディア⭐ リポ 47

audiowaveform

オーディオファイルから波形ビジュアライゼーションを生成します。波形画像の作成、オーディオプレーヤーのビジュアライゼーション構築、Webプレーヤー向けの波形データ生成、ポッドキャストエピソードのプレビュー作成、オーディオサムネイルの生成、ソーシャルメディア向けの波形PNG出力、JSONフォーマットでのピークデータ抽出、オーディオ処理パイプラインへの波形生成統合など、ユーザーのリクエストに対応します。audiowaveform CLIの使用、JSON/バイナリデータ出力、Webプレーヤー統合に対応しています。

by TerminalSkills

OpenAI音声・動画・メディア⭐ リポ 18,898

transcribe

音声ファイルをテキストに変換できます。話者識別機能やスピーカー情報の活用にも対応しており、ユーザーが音声・動画からの文字起こし、録音からのテキスト抽出、インタビューや会議での話者ラベリングをリクエストする際に利用します。

by openai

汎用音声・動画・メディア⭐ リポ 38

axiom-vision

被写体のセグメンテーション、VNGenerateForegroundInstanceMaskRequest、手からのオブジェクト分離、VisionKit被写体リフティング、画像前景検出、インスタンスマスク、クラス非依存セグメンテーション、VNRecognizeTextRequest、OCR、VNDetectBarcodesRequest、DataScannerViewController、ドキュメントスキャニング、RecognizeDocumentsRequestを使用して実装できます。これらのAPIを活用することで、画像から被写体を自動検出・分離したり、手の領域を除外したりすることが可能です。また、テキスト認識、バーコード検出、ドキュメントスキャンなど、様々なコンピュータビジョンタスクに対応できます。

by ComeOnOliver

OpenAI音声・動画・メディア⭐ リポ 73

helios-core

Heliosビデオエンジンのコア APIです。コンポジション（映像合成）の作成、タイムライン状態の管理、再生制御、フレーム更新の購読が必要な場合に使用します。Heliosクラスのインスタンス化、シグナル、アニメーションヘルパー、DOM同期に対応しています。

by BintzGavin

汎用音声・動画・メディア⭐ リポ 18

ai-avatar-video

AIアバター及びトーキングヘッド動画の総合ツールキットです。トーキングヘッドコンテンツ向けのスクリプト作成、ペルソナ選定フレームワーク、マルチシーン構成、音声・オーディオのベストプラクティス、グリーンスクリーンテクニック、UGCスタイルの自然さガイドを提供します。Creatify APIと連携し、AIアバターv1/v2、Aurora、テキスト音声変換、カスタムアバター、音声クローニングに対応しています。以下の場合に活用できます：アバター動画、トーキングヘッド、AIスポークスパーソン、リップシンク、UGC動画、Aurora、テキスト音声変換、音声クローニング、AIプレゼンター、カスタムアバター、グリーンスクリーンアバター、AIナレーター、スポークスパーソン動画、アバター向けスクリプト、マルチシーン動画、TTS、ボイスオーバー、AIトーキングヘッドなど、AIアバター・トーキングヘッド関連のあらゆるタスクに対応します。

by creatify-ai

汎用音声・動画・メディア⭐ リポ 54

ipa-translator

広東語、北京官話、英語、日本語、韓国語、ベトナム語など24言語に対応し、テキストを国際音声記号（IPA）およびローマ字表記形式に変換できます。ユーザーがIPA表記、音声記号、ピンイン、粤語ピンイン、またはその他の言語からIPA変換をリクエストする際に使用します。

by lotusfa

汎用音声・動画・メディア⭐ リポ 31

video-storyboard-generator

ビデオシーンボード脚本ジェネレーターで、ブレーンストーミング、ユーザー好みの記憶、15秒ショット規則、キャラクタープロンプト生成、効果音/BGM提案に対応します。カメラワーク指導、画面設計、ナレーション、キャラクター説明を含む完全なシーンボード脚本を生成できます。シンプル版（内容説明）とプロ版（詳細なカメラワーク）の両方に対応しており、チュートリアル、書籍紹介、レビュー、ストーリー、商品紹介、データレポートなど様々な用途に適用できます。ユーザーが「分镜作成」「シーンボード脚本」「ビデオシーンボード」と指示した際に使用します。

by OYYH-Apple

汎用音声・動画・メディア⭐ リポ 7

px-asset-extract

画像（スライド、ポスター、インフォグラフィックス、図表）から個別の要素を透明なPNG形式で抽出し、JSONマニフェストとともに提供します。MLモデルを使わず、古典的なCV技術（PIL+numpy）のみを活用しています。自動的にセグメント化、分類（テキスト、イラスト、アイコン、グラフィック、線、点、図表、影、要素）を行い、各要素をアンチエイリアス処理されたアルファ透明度で切り抜きます。タイプフィルタリング（--types/--exclude-types）と事前計算されたリージョン抽出（--regions）に対応しており、ビジュアルグラウンディングモデルとの連携が可能です。「画像から要素を抽出」「スライドを個別要素に分解」「ポスターからすべてのアイコンを取得」「イラストを抽出」「セグメント化して切り抜き」「個別要素を抽出」といった指示、またはユーザーが画像を持っていて各要素の透明なPNGが必要な場合に起動します。

by JadeLiu-tech

汎用音声・動画・メディア⭐ リポ 6

seedance

Fal AIを経由してByteDanceのSeedance 2.0を使用し、シネマティックなモーショングラフィックス動画を生成できます。画像から動画、リファレンスから動画、テキストから動画、リキッドガラスプロンプト、App Storeスクリーンショットのスクレイピング、スクリーンショットから完成したプロモクリップまでの全パイプラインに対応しています。seedance、cdance、モーショングラフィックス、リキッドガラス、アプリプロモ、ビデオプロモなどのキーワードで起動します。

by gabrielmoreira

汎用音声・動画・メディア⭐ リポ 5

ffmpeg-cut-concat

ffmpegを使用して、メディアのトリミング、カット、分割、セグメント化、結合を実行します（可能な限りストリームコピーを使用し、カット境界では再エンコード）。ユーザーがビデオのトリミング、クリップのカット、タイムスタンプによるセグメント抽出、セクションの削除、ファイルの分割、ビデオの結合・マージ、ファイルの連結、またはセグメント化されたHLSスタイルのプレイリスト構築を依頼した場合に使用します。

by damionrashford

汎用音声・動画・メディア⭐ リポ 61

summarize

URLやポッドキャスト、ローカルファイルのテキストやトランスクリプトを要約・抽出できます。YouTubeなどの動画ファイルの文字起こしが必要な場合にも対応します。

by EthanAlgoX

汎用音声・動画・メディア⭐ リポ 39

md2book

Markdown形式の書籍をプロフェッショナルな組版のPDF電子書籍に変換します。インテリジェント自動分ページ、日本語の完全レンダリング、上質な装帯デザイン、複数のビジュアルテーマに対応しています。

by ZeroxZhang

汎用音声・動画・メディア⭐ リポ 13

ae-mcp

Model Context Protocolを通じたAfter Effectsの自動化に対応しています。ユーザーがAdobe After Effectsでのコンテンツ作成、編集、アニメーション制作を依頼した場合に使用します。コンポジション、レイヤー、キーフレーム、エフェクト、エクスプレッション、テキストアニメーション、ロワーサード、タイトルカード、ロゴアニメーション、モーショングラフィックスなど、あらゆるタスクに対応可能です。「After Effectsで作成する」「アニメーションする」「モーショングラフィックスを作る」「キーフレームを追加する」「エフェクトを適用する」といったフレーズや、コンポジション、プリコンプ、エクスプレッション、タイムリマップなどのAE固有の概念が言及された場合に自動で実行されます。

by ishu86

Anthropic Claude音声・動画・メディア⭐ リポ 32

add-listen-hotkey

OSの任意の場所から`deus listen`をトリガーするグローバルホットキーをインストールします。同時にsox、whisper-cli、およびwhisperモデルもインストールします。

by sliamh11

汎用音声・動画・メディア⭐ リポ 34

ai-avatar-video

inference.sh CLIを使用して、OmniHuman、Fabric、PixVerseでAIアバターとトーキングヘッド動画を生成できます。対応モデル：OmniHuman 1.5、OmniHuman 1.0、Fabric 1.0、PixVerse Lipsync。音声駆動アバター、リップシンク動画、トーキングヘッド生成、バーチャルプレゼンターの作成に対応しています。AIプレゼンター、解説動画、バーチャルインフルエンサー、吹き替え、マーケティング動画などの用途に活用できます。

by diegosouzapw

汎用音声・動画・メディア⭐ リポ 34

ai-content-pipeline

画像、動画、音声、テキストを組み合わせた複数ステップのAIコンテンツ作成パイプラインを構築できます。ワークフロー例：画像生成 → アニメーション化 → ボイスオーバー追加 → 音楽との統合。利用可能なツール：FLUX、Veo、Kokoro TTS、OmniHuman、メディアマージャー、アップスケーリング。用途：YouTubeの動画、ソーシャルメディアコンテンツ、マーケティング資料、自動コンテンツ生成。このスキルは、コンテンツパイプライン、AIワークフロー、コンテンツ作成、マルチステップAI、コンテンツ自動化、AI動画ワークフロー、生成と編集、AIコンテンツファクトリー、自動コンテンツ作成、AI制作パイプライン、メディアパイプライン、大規模コンテンツ生成などのトリガーで活用できます。

by diegosouzapw

汎用音声・動画・メディア⭐ リポ 29

autoshorts

長尺動画から短編コンテンツを自動生成するパイプラインです。毎日フォルダから1本の動画を選び、Whisperで音声を文字起こしし、Gemini 3 Flashのマルチモーダル機能でバイラル性の高い短編部分を抽出します。各候補をFFmpegでカット、フック性の高いテキストオーバーレイを追加し、ユーザーに承認用として提示します。承認されたクリップはUpload-Post APIを通じてTikTok・Instagram Reels・YouTube Shortsに自動公開します。長い動画から短編を作成したい、自動ショート生成やバイラルクリップ抽出、コンテンツの再利用について相談したい、または日次のクリップバッチ処理を希望する場合に利用してください。

by mutonby

汎用音声・動画・メディア⭐ リポ 291

video-wrapper

インタビュー映像にエンタメ特効（テロップ、カード、人物バー、チャプタータイトルなど）を追加できます。4種類のビジュアルテーマに対応しており、字幕コンテンツを分析して提案を自動生成し、ユーザーの承認後にビデオをレンダリングします。

by op7418

Anthropic Claude音声・動画・メディア⭐ リポ 1

video-editing

AI搭載のビデオ編集ワークフローで、カット、構成、映像の拡張に対応します。FFmpeg、Remotion、ElevenLabs、fal.aiを活用した生映像キャプチャから、DescriptやCapCutでの最終調整まで、全体的なパイプラインをカバーします。動画編集、映像カット、vlog制作、またはビデオコンテンツ作成をご希望の際にご利用ください。

by yusufcmg

汎用音声・動画・メディア⭐ リポ 15

ocr-and-documents

PDFやスキャン画像からテキストを抽出できます。PyMuPDFやMarker-PDFなどのツールを使用して、文書内のテキストを効率的に取得します。

by invergent-ai

汎用音声・動画・メディア⭐ リポ 15

kling-3-prompting

Kling 3.0のAI動画生成向けにより優れたプロンプトを作成します。ユーザーがテキストから動画、画像から動画、キーフレーム、マルチショットシーケンス、対話シーンなど、プロンプトの作成、作文、改善、または精緻化を希望する場合に使用してください。

by aedev-tools

汎用音声・動画・メディア⭐ リポ 4

whatsapp-voice

WhatsAppの音声メッセージをローカルのWhisper CLIで文字起こしします。オーナーまたはコンタクトがオーディオ/OGG形式の音声メッセージを送信した場合に使用します。Whisperによる文字起こし、CRMの更新、タスク作成を組み合わせて実行します。短いクリップはオフラインで処理し、長いクリップはOpenAI APIを利用します。ヘブライ語と英語に対応しています。

by netanel-abergel

汎用音声・動画・メディア⭐ リポ 34

clipper

ビデオのトランスクリプション（字幕テキスト）を分析して、クリップ化に適した興味深いセグメントを特定します。ハイライト、重要なシーン、リアクションを正確なタイムスタンプ付きで検出できます。ビデオトランスクリプションから動画クリップ向けの価値あるモーメントを抽出する際にご利用ください。

by diegosouzapw

汎用音声・動画・メディア⭐ リポ 34

runwayml

Runway APIを使用して、AI動画、画像、音声を生成できます。画像から動画への変換、テキストから動画への生成、動画から動画への変換、キャラクターパフォーマンス、テキストから画像への生成、テキストから音声への変換、効果音、音声処理など、Runwayを使用したコンテンツ生成が必要な場合に使用します。

by diegosouzapw

汎用音声・動画・メディア⭐ リポ 34

stream-transcript-processor

TwitchやYouTubeのストリーム字幕を処理して、クリップに適した瞬間を特定し、短編スクリプトノート、Xポスト案、YouTubeメタデータを生成し、コンテンツインサイトを抽出します。ストリーム字幕、VOD URL、またはテックフレンストリームからクリップ・ハイライトの抽出を求められた場合に使用してください。

by diegosouzapw

汎用音声・動画・メディア⭐ リポ 32

edit-greek-reel

喋っている人物が映った動画を、カラオケ字幕付きの洗練されたショートフォーム動画に編集できます。無音部分をカット、Manrope Bold字幕の追加、ズームエフェクト、効果音、画像オーバーレイに対応しています。すべての言語に対応しており、/edit-greek-reel <動画ファイルパス> [オプション]のコマンドで利用できます。

by artemisln

Anthropic Claude音声・動画・メディア⭐ リポ 7

youtube-tools

yt-dlpを使用した無料のYouTube動画ダウンロード、トランスクリプト抽出、メタデータ取得機能です。単一または一括での動画ダウンロード、トランスクリプト・字幕の抽出、動画メタデータの取得、音声のみのダウンロードに対応しています。APIキーが不要で完全無料（Apifyとは異なります）。YouTube動画のダウンロードリクエスト、トランスクリプト抽出、動画メタデータ取得、または一括動画ダウンロードで自動的に起動します。

by majiayu000

Anthropic Claude音声・動画・メディア⭐ リポ 29

comfy_local

ローカルの ComfyUI サーバー（ポート 8188）を経由して、画像と動画を生成します。ユーザーが ComfyUI、拡散モデル、LoRA、または AI 画像生成を使用して画像や動画の生成、作成、またはレンダリングを希望する場合に使用してください。

by purzbeats

Anthropic Claude音声・動画・メディア⭐ リポ 7

chiptune-composer

オーディオトラッカーのコンパクトなJSON形式で、フル尺（約1.5分）のチップチューン楽曲を作成できます。RPGバトルテーマ、町の音楽、大陸冒険曲、クラシックアレンジ、ダンジョンアンビエント音など、多様なジャンルに対応しています。オーディオトラッカー向けの楽曲制作、ゲーム音楽の作曲、または.json形式の楽曲ファイル生成が必要な場合に活用してください。

by majiayu000

汎用音声・動画・メディア⭐ リポ 1

AudioEditor

AI搭載の音声・動画編集機能 — 文字起こし、インテリジェントなカット検出、自動クロスフェード編集、オプションのクラウド仕上げに対応しています。音声のクリーニング、音声編集、フィラー言葉の削除、ポッドキャスト編集、「um」などの除去、音声修正、無音部分のカット、音声仕上げ、録音のクリーニング、文字起こしと編集などが必要な場面でご利用ください。

by BishopCodes

汎用音声・動画・メディア⭐ リポ 59

fireflies

Fireflies.ai APIを使用した会議の文字起こしスキルです。ユーザーが「Fireflies」「会議メモ」「文字起こし」「会議の要約」などについて言及した際に使用します。

by vm0-ai

汎用音声・動画・メディア⭐ リポ 3

manim

このスキルは、ユーザーが「アニメーションを作成する」「動画を作る」「このコンセプトをアニメーション化する」「このプロセスを可視化する」「ブログ用のGIFを作成する」「グラフをプロットする」「値をアニメーション化する」と依頼したり、「manim」「数学アニメーション」「コードアニメーション」「プロセス可視化」「技術アニメーション」「3Dシーン」「カメラアニメーション」「ValueTracker」「数値アニメーション」に言及する場合に使用します。ManimCE(コミュニティ版)の構文、パターン、およびプログラマティックアニメーション作成のベストプラクティスを提供します。

by awesome-skills

Anthropic Claude音声・動画・メディア⭐ リポ 12

mute

ミュート — ストリームを停止せずに音楽を消音にします

by kennethleungty

Anthropic Claude音声・動画・メディア⭐ リポ 3

handwritten-ocr

このスキルは、スキャンした手書きPDFをWord文書に変換したい場合、または手書きOCRのウェブインターフェースを起動したい場合に使用します。トリガーフレーズには「この手書きPDFを変換して」「手書きメモを文字起こしして」「このスキャンPDFをOCR処理して」「手書きPDFからテキストを抽出して」「OCRウェブアプリを開いて」「手書きOCRを起動して」「手書きをWordに変換して」「手書き文書を読み込んで」などが含まれます。

by learngvrk

汎用音声・動画・メディア⭐ リポ 34

video

fal.ai（Wan、Kling）またはSoraを使用してビデオを生成できます。テキストからビデオへ、または画像からビデオへの変換に対応しています。

by diegosouzapw

Anthropic Claude音声・動画・メディア⭐ リポ 11

epub-creator

テキストと画像をePub 3形式の電子書籍にパッケージ化できます。章立て、目次、カバー画像、メタデータを含め、KindleとApple Booksに対応した形式で生成します。

by inbharatai

汎用音声・動画・メディア⭐ リポ 0

youtube-scan

YouTubeをトピック（検索）、チャンネル（アップロード一覧）、またはURL（メタデータ）で動画をスキャンできます。タイトル、再生回数、チャンネル名、アップロード日時を返します。`--rich auto`オプションにより、スコアが高い結果に対して自動的にトリミングされたトランスクリプトスニペットをインラインで表示できます。詳細な分析には`/ro:video-summarize`と組み合わせて使用してください。

by RonanCodes

Anthropic Claude音声・動画・メディア⭐ リポ 9

video-to-claude

Geminiを使用してビデオを分析し、Claudeのビルド手順を取得できます。YouTube URL、GIF、スクリーンレコーディング、ローカルビデオファイルに対応しています。ユーザーがビデオ・GIFを共有し、ビルド方法の理解、UIのクローン、プロダクトのリバースエンジニアリング、またはチュートリアルステップの抽出が必要な場合に使用します。「このビデオを見て」「これをクローンして」「リバースエンジニアリングして」「どうやってビルドするの」「このデモを分析して」といったトリガーワードに反応します。

by rohunvora

Anthropic Claude音声・動画・メディア⭐ リポ 7

ffmpeg

FFmpegの使用ガイド - 動画・音声のエンコーディング、形式変換、ストリーミング、フィルタリングに対応した包括的なマルチメディアフレームワークです。メディアファイルの処理、形式変換、音声抽出、ストリーム作成、フィルタ適用、動画・音声品質の最適化が必要な場合に活用できます。

by majiayu000

汎用音声・動画・メディア⭐ リポ 8

summarize

summarize CLIを使用して、URL またはファイルを要約できます。Web ページ、PDF、画像、音声、YouTube など、様々な形式に対応しています。

by Demerzels-lab

Anthropic Claude音声・動画・メディア⭐ リポ 1

video-testimonial

顧客の声を自動で収集できるセルフ記録ワークフローです。アウトリーチから説明、収録、公開まで一連のプロセスをガイドします。マーケティングキャンペーンの信頼性構築、顧客成功事例の作成、ウェブサイトや広告用の推薦文の収集、ケーススタディ動画の制作、ユーザー生成コンテンツの収集など、様々な用途でご活用いただけます。

by KunanonJ

汎用音声・動画・メディア⭐ リポ 1

sherpa-onnx-tts

sherpa-onnxを使用したローカルテキスト音声変換（オフライン、クラウド不要）このスキルは、sherpa-onnxを活用してテキストを音声に変換します。クラウドサービスに依存せず、お客様のデバイス上でローカルに処理されるため、インターネット接続がなくても動作します。データをサーバーに送信しないので、プライバシーを保護しながら音声出力機能を実装できます。

by gensparx

汎用音声・動画・メディア⭐ リポ 1

game-audio

ゲームオーディオの原則。サウンドデザイン、音楽統合、アダプティブオーディオシステムについて学習できます。ゲーム開発におけるオーディオの基本的な考え方から、効果音やBGMの設計方法、プレイヤーのアクションやゲーム状態に応じて動的に変化する音声システムの実装まで習得します。ゲーム体験の質を高める音響設計の手法を身につけることができます。

by darthlinuxer

汎用音声・動画・メディア⭐ リポ 12

azure-speech-to-text-rest-py

Azure Speech to Text REST APIを使用した短音声認識（Python）。Speech SDKを必要とせず、60秒以下の音声ファイルをシンプルに認識できます。

by HIDORAKAI002

汎用音声・動画・メディア⭐ リポ 4

youtube-downloader

YouTubeの動画をカスタマイズ可能な品質とフォーマットオプションでダウンロードできます。ユーザーがYouTube動画のダウンロード、保存、または取得をリクエストした場合に使用してください。最高品質、1080p、720p、480p、360pなど様々な品質設定に対応し、mp4、webm、mkvなど複数のフォーマット、および音声のみのMP3ダウンロードをサポートしています。

by nordeim

汎用音声・動画・メディア⭐ リポ 0

youtube-creator-cli-skill

YouTube Creator CLIを使用するエージェント向けの包括的な運用ガイドです。

by hcassar93

OpenAI音声・動画・メディア⭐ リポ 0

ai-podcast-creation

テキスト音声変換、音楽生成、オーディオ編集を活用したAI駆動ポッドキャストを制作できます。Kokoro TTS、DIA TTS、Chatterbox、AI音楽生成、メディアマージャーなどのツールを搭載しており、複数音声での会話、背景音楽、イントロ・アウトロ、完全なエピソード制作に対応しています。ポッドキャスト制作、オーディオブック、音声コンテンツ、音声ニュースレターなど、様々なオーディオコンテンツ制作に利用できます。ポッドキャスト自動化からAIナレーション、マルチボイス会話まで、幅広いオーディオ生成ニーズに対応した包括的なソリューションです。

by journey247

OpenAI音声・動画・メディア⭐ リポ 0

speaker-reel

このスキルは、ユーザーが「スピーカーリール作成」「スピーキングデモビデオ」「スピーカーシズルリール」「スピーキングハイライト」の作成を依頼したり、スピーカーリール、デモビデオ、またはスピーキングポートフォリオについて言及したりする場合に使用します。スピーキング能力を効果的に示し、スピーキングの機会を獲得するための魅力的なスピーカーリールを作成できます。

by journey247

汎用音声・動画・メディア⭐ リポ 0

gif-maker-free

スライダーを一切操作することなく、ポストする準備ができたループGIFファイルを作成できます。動画クリップまたは画像（MP4、MOV、GIF、WebM、最大200MB）をアップロードして、「このビデオクリップをループGIFに変換して」のような指示を出すだけで、完成後に720p MP4をダウンロードできます。素早く動くソーシャルメディアユーザーやコンテンツクリエイター向けに設計されており、ソフトウェア購入費用をかけずに短時間でGIFを作成したい方に最適です。

by mory128

Anthropic Claude音声・動画・メディア⭐ リポ 7

pronunciation-specialist

歌詞の発音リスクをスキャンして、Sunoの誤発音を防止します

by majiayu000

Anthropic Claude音声・動画・メディア⭐ リポ 7

Video Clipper

ffmpegを使用してチャプタータイムスタンプから動画クリップを作成します。動画ファイルとそれを分割するためのタイムスタンプ・チャプター情報が与えられた場合に使用します。

by majiayu000

Anthropic Claude音声・動画・メディア⭐ リポ 7

twilio-video

ビデオルーム：グループ/P2P通信、録画コンポーズ、トラック配信、ネットワーク品質API、帯域幅管理に対応しています。グループビデオ会議とP2P（ピア・ツー・ピア）の両方のモードでビデオルームを構築できます。複数の映像トラックを組み合わせて録画を作成するコンポーズ機能を利用でき、個別のメディアトラックの配信制御も可能です。ネットワーク品質APIにより接続状態をリアルタイムで監視でき、帯域幅の管理を通じてユーザー体験を最適化できます。

by majiayu000

汎用音声・動画・メディア⭐ リポ 2

markitdown

ファイルとOfficeドキュメントをMarkdownに変換できます。PDF、DOCX、PPTX、XLSX、画像（OCR対応）、音声（文字起こし対応）、HTML、CSV、JSON、XML、ZIP、YouTubeのURL、EPubなど、多くの形式に対応しています。

by luokai0

汎用音声・動画・メディア⭐ リポ 2

complex-image-editing

複雑な画像編集指示をより単純な部分タスクに分解し、自動生成されたコントロールガイダンスを提供します。複数オブジェクトの編集に対応し、周辺領域のアイデンティティを保持しながら、手動でのマスク作成を不要にします。

by ADu2021

汎用音声・動画・メディア⭐ リポ 2

ai-music-generation

Diffrythm および Tencent Song Generation を使用して、inference.sh CLI でAI音楽と楽曲を生成できます。モデル：Diffrythm（高速な楽曲生成）、Tencent Song Generation（ボーカル付きフル楽曲）。機能：テキスト from ミュージック、楽曲生成、インストルメンタル、歌詞から楽曲、サウンドトラック制作に対応しています。活用用途：背景音楽、SNSコンテンツ、ゲームサウンドトラック、ポッドキャスト、ロイヤリティフリー音楽など多岐にわたります。対応キーワード：音楽生成、AI音楽、楽曲生成、AI作曲家、テキスト to ミュージック、楽曲ジェネレータ、AIで音楽制作、Sunoの代替、Udioの代替、AI楽曲、AIサウンドトラック、サウンドトラック生成、AIジングル、ミュージックAI、ビート生成。

by peparhugo

Anthropic Claude音声・動画・メディア⭐ リポ 1

deepgram-core-workflow-b

Deepgramを使ったリアルタイムストリーミング文字起こしを実装できます。ライブ文字起こし、音声インターフェース、リアルタイムオーディオ処理アプリケーションの構築時に活用できます。「deepgramストリーミング」「リアルタイム文字起こし」「ライブ文字起こし」「websocket文字起こし」「音声ストリーミング」といったフレーズでトリガーされます。

by Brmbobo

Anthropic Claude音声・動画・メディア⭐ リポ 1

deepgram-hello-world

Deepgramの文字起こしの最小限の動作例を作成します。Deepgramの新規統合を開始する際、セットアップをテストする場合、または基本的なDeepgram APIのパターンを学ぶ際に使用してください。「deepgram hello world」「deepgram example」「deepgram quick start」「simple transcription」「transcribe audio」などのフレーズでトリガーできます。

by Brmbobo

Anthropic Claude音声・動画・メディア⭐ リポ 1

deepgram-performance-tuning

Deepgram APIのパフォーマンスを最適化し、文字起こしの高速化とレイテンシー低減を実現します。文字起こしの速度向上、レイテンシーの削減、音声処理パイプラインの最適化が必要な場合に活用できます。「deepgram performance」「speed up deepgram」「optimize transcription」「deepgram latency」「deepgram faster」といったフレーズでトリガーされます。

by Brmbobo

OpenAI音声・動画・メディア⭐ リポ 4

remotion

Remotionのベストプラクティス - Reactでのビデオ作成

by dwainm

汎用音声・動画・メディア⭐ リポ 3

convert_pdf_to_images

Anthropicからインポートされたスキル「PDFを画像に変換」です。このスキルを使用することで、PDFファイルを複数の画像ファイルに変換できます。EC事業では商品カタログやマニュアルのPDF形式での資料を、Web表示用の画像形式に効率的に変換する際に活用できます。

by bitwikiorg

汎用音声・動画・メディア⭐ リポ 0

whisper-transcribe

OpenAI の Whisper CLI を使用して、音声・動画ファイルをテキストに変換します。文脈情報に基づいて精度の高い文字起こしを実現します。音声・動画ファイルのテキスト変換、録音の文字起こし、メディアファイルからのトランスクリプト作成に対応しています。「whisper で文字起こしする」「音声を文字起こしする」「録音をテキストに変換する」「音声をテキストに変換する」といったご依頼の際に使用します。同じディレクトリに配置されたマークダウンファイルを文脈情報として活用することで、技術用語・固有名詞・業界用語の認識精度を向上させます。

by SpillwaveSolutions

汎用音声・動画・メディア⭐ リポ 9

feishu-voice

Feishu音声メッセージ送信スキル。Edge TTS（Microsoft提供、無料無制限）を使用してテキストを音声に変換し、Feishuの音声バブル形式で送信します。ユーザーが音声での返信、音声メッセージ送信、またはコンテンツのTTS読み上げをリクエストした際に動作します。デフォルト音声：Yunxi（zh-CN-YunxiNeural、明るく陽気な男性音）です。

by dvcrn

汎用音声・動画・メディア⭐ リポ 0

sarvam-ai

Sarvam AI APIを通じたインド言語AI機能です。Bulbul v3を使用した22言語以上のインド言語での音声合成(TTS)機能、38種類の音声をサポートしており、Saaras v3による音声認識(STT)機能を提供します。ユーザーがインド言語での音声生成、インド言語音声の文字起こし、またはインド言語のTTS/STTが必要な場合に活用できます。

by adhishthite

汎用音声・動画・メディア⭐ リポ 6

Animation Export Optimizer

アニメーション書き出しをコーデック選択、フレームレート、品質設定により異なるプラットフォーム向けに最適化します

by Eli-yu-first

汎用音声・動画・メディア⭐ リポ 1

cyber-horn

テキストをFeishu（Lark）の音声メッセージに変換できます。エージェントがFeishuグループで音声を再生したい場合、音声アラートやお知らせを送信したい場合、またはテキストの代わりに再生可能な音声メモで返信したい場合に使用します。

by Richerlv

Anthropic Claude音声・動画・メディア⭐ リポ 1

deepgram-rate-limits

Deepgramのレート制限とバックオフ戦略を実装します。API クォータの管理、リクエストスロットリングの実装、またはレート制限エラーへの対応が必要な場合に使用してください。「deepgram rate limit」「deepgram throttling」「429 error deepgram」「deepgram quota」「deepgram backoff」などのフレーズで実行されます。

by Brmbobo

Anthropic Claude音声・動画・メディア⭐ リポ 1

processing-computer-vision-tasks

物体検出、分類、セグメンテーションを用いた画像処理が可能です。「画像を分析する」「物体検出」「画像分類」「コンピュータビジョン」といったリクエストが必要な場合にご利用ください。スキルの目的に応じた関連フレーズでトリガーされます。

by Brmbobo

汎用音声・動画・メディア⭐ リポ 0

subtitler

字幕作成に関する専門的な作業が必要な際に使用します。トリガーシーン：字幕翻訳/タイムラインの作成。ユーザーが「字幕者」「字幕翻訳」「タイムライン制作」「subtitler」を言及した場合、このスキルが発動します。

by caishengold

OpenAI音声・動画・メディア⭐ リポ 0

whisnap

macOS用のCLIツールで、ローカルのWhisperモデルまたはWhisnap Cloudを使用して、音声ファイルおよび動画ファイルの文字起こしができます。

by meghal86

汎用音声・動画・メディア⭐ リポ 0

media-toolkit-production

ElevenLabs API v3を使用した音声生成とオーディオミキシング機能で、インテリジェントなタイミング最適化に対応しています。ユーザーが音声生成、TTS、ElevenLabs、オーディオプロダクション、またはスクリプト形式のCHARACTER（感情）ダイアログについて言及した際に動作します。

by bermingham85

Anthropic Claude音声・動画・メディア⭐ リポ 10

wd-clip-image

画像の一部を切り出す。全体から注目したい場所だけを取り出して、そこに集中するための道具。

by fruitriin

Anthropic Claude音声・動画・メディア⭐ リポ 0

wonda-cli

Wonda CLIを使用して、ターミナルから画像、動画、音楽、オーディオを生成できます。さらにLinkedIn、Reddit、X/Twitterのリサーチと自動化機能も備えています。

by degausai

Anthropic Claude音声・動画・メディア⭐ リポ 0

transloadit-media-processing

Transloaditを使用して動画・音声・画像・ドキュメントなどのメディアファイルを処理します。動画のHLS/MP4エンコード、サムネイル生成、画像のリサイズや透かし追加、音声抽出、クリップの結合、字幕追加、ドキュメントのOCR処理など、あらゆるメディア変換パイプラインの実行が必要な場面で活用できます。大規模なファイル変換に対応した86種類以上の処理ロボットを網羅しています。

by github

Anthropic Claude音声・動画・メディア⭐ リポ 0

tts

ユーザーがテキストを音声に変換したい、テキストから音声を生成したい、またはナレーションを作成したい場合に、このスキルを使用してください。「TTS」「テキスト読み上げ」「話す」「読む」「音声」「読み上げ」「音声ナレーション」「ボイスオーバー」「ダビング」などの言及や、テキストを音声に変換するリクエストが対象です。また、EPUB・PDF・SRT・記事を音声に変換する場合、参照音声から音声をクローンする場合、音声の感情や速度を制御する場合、音声を字幕タイムラインに合わせる場合、セグメント別に音声をマッピングされたオーディオを作成する場合にも使用します。

by noizai

Anthropic Claude音声・動画・メディア⭐ リポ 0

音声文字起こし自動化｜ElevenLabs Scribeで字幕生成

ElevenLabs Scribe v2で音声を高精度にテキスト化。会議の議事録作成・字幕生成・音声/動画コンテンツの文字起こしを自動化したい人向け。長時間音声の処理にも対応します。

by elevenlabs

Anthropic Claude音声・動画・メディア⭐ リポ 0

youtube-transcript

YouTubeの動画からトランスクリプトを抽出します。ユーザーがYouTube URL（youtube.com/watch?v=、youtu.be/ など）を提供し、書き起こし・字幕・キャプションを求めた際に使用します。タイムスタンプの有無を選択して出力できます。

by intellectronica

Anthropic Claude音声・動画・メディア⭐ リポ 0

characteristic-voice

このスキルは、ユーザーが音声をより人間らしく、親友のような、または感情的に表現豊かにしたいときに使用します。トリガーには「～のように言う」「～のように話す」「コンパニオンボイス」「励ましてほしい」「元気づけてほしい」「より人間らしく聞こえるようにしてほしい」「おやすみなさいボイス」「おはようボイス」や、フィラー、感情、個性を音声に加えるリクエストが含まれます。また、特定キャラクターの声を模倣したい、話し方プリセット（おやすみ、朝、コンフォート、お祝い、チャット）を適用したい、温かさや優しさなどの感情パラメータを調整したい、またはTTS出力を実際の人間の話し方に感じさせたい場合も使用します。「ボイスメッセージ」「コンパニオンオーディオ」「キャラクターボイス」を求めたり、音声がため息、笑い、躊躇、または本当に温かく聞こえるようにしたい場合も使用してください。個性のない単なるテキスト読み上げ、音楽生成、効果音、表現豊かな音声と無関係の一般的なコーディングタスクには使用しないでください。

by noizai

Anthropic Claude音声・動画・メディア⭐ リポ 0

manim-video

Manimを使った技術概念・図解・システム図・製品デモ向けの再利用可能なインタープリターを構築し、必要に応じてより広範なECCビデオスタックへ引き渡します。一般的なナレーションスクリプトではなく、アニメーションによるわかりやすい解説を求めているユーザーに対して使用します。

by affaan-m

Anthropic Claude音声・動画・メディア⭐ リポ 0

computer-vision-opencv

OpenCVやPyTorchを活用したコンピュータビジョン開発を専門的にサポートするスキルです。画像・動画処理からモダンなディープラーニング手法まで、幅広い技術的課題に対して的確なガイダンスを提供します。

by mindrally

Anthropic Claude音声・動画・メディア⭐ リポ 0

automate-this

手動作業の画面録画を解析し、実際に動作する自動化スクリプトを生成します。動画ファイルからフレームと音声ナレーションを抽出してワークフローを再構築し、ユーザーのマシンにインストール済みのツールを活用して複数の複雑さレベルで自動化を提案します。

by github

Anthropic Claude音声・動画・メディア⭐ リポ 0

video-translation

ビデオの動画部分をそのまま保持しながら、元の音声をテキスト音声合成に置き換えることで、ビデオをある言語から別の言語に翻訳・吹き替えします。

by noizai

Anthropic Claude音声・動画・メディア⭐ リポ 0

daily-news-caster

ニュース集約スキルを使用して最新ニュースを取得し、Markdown形式のポッドキャストスクリプトにフォーマットしてから、TTSスキルを使ってポッドキャストの音声ファイルを生成します。ユーザーが最新ニュースの取得と読み上げをポッドキャスト形式でリクエストした際に使用してください。

by noizai

Anthropic Claude音声・動画・メディア⭐ リポ 0

video-frames

動画からffmpegを使用してフレーム画像や短いクリップを抽出します。動画の特定シーンをキャプチャしたい場合や、サムネイル生成・クリップ切り出しが必要なときに活用できます。

by steipete

Anthropic Claude音声・動画・メディア⭐ リポ 0

music-downloader

このスキルはYouTube、SoundCloud、Spotifyなどのオンラインプラットフォームから音声や音楽をダウンロードする必要がある場合に使用します。高品質な音声抽出、プレイリストダウンロード、メタデータ埋め込み、複数プラットフォーム対応のためのyt-dlpおよびspotdlコマンドテンプレートを提供します。

by nymbo

Anthropic Claude音声・動画・メディア⭐ リポ 0

jackyshen-gen-short-video-script

WeChat Channels・Douyin・Xiaohongshu・TikTok・Reels などのソーシャルメディア向けに、30秒〜3分の短尺動画スクリプトを生成します。「ショート動画のスクリプト」「WeChat/Douyin/TikTok/XHSのコンテンツ」「SNS動画コンテンツ」などのリクエストに対して活用してください。

by mebusw

Anthropic Claude音声・動画・メディア⭐ リポ 0

postbridge-social-growth

TikTokおよびInstagramのショート動画を活用したオーガニック成長を支援するコーチングスキルで、500M回以上の再生数・132K件以上のダウンロード・$33K以上の収益実績を持つPost Bridgeメソッドに基づいています。バイラルコンテンツの作成、新規アカウントのウォームアップ、勝ちパターンのコンテンツ形式の発見、SNSのビューをアプリDLや顧客転換につなげる方法など、広告費ゼロで再現性のある成長システムを構築したいアプリ・プロダクト・ビジネスオーナーに最適です。プロフィール文の最適化やコンテンツマーケットフィットの見極めにも活用できます。

by giulioco

Anthropic Claude音声・動画・メディア⭐ リポ 0

video-generation

動画の生成・作成・イメージ化をリクエストされた際に使用するスキルです。構造化されたプロンプトや参照画像を用いたガイド付き生成にも対応しています。

by bytedance

Anthropic Claude音声・動画・メディア⭐ リポ 0

douyin-video

抖音（TikTok中国版）の動画からウォーターマークなしのダウンロードリンクを取得し、動画をダウンロードするとともに、音声からテキストを抽出してファイルに自動保存するツールです。抖音の共有リンクを処理して動画情報の取得・一括テキスト抽出を行いたい場合に使用します。

by yzfly