AudioEditor
AI搭載の音声・動画編集機能 — 文字起こし、インテリジェントなカット検出、自動クロスフェード編集、オプションのクラウド仕上げに対応しています。音声のクリーニング、音声編集、フィラー言葉の削除、ポッドキャスト編集、「um」などの除去、音声修正、無音部分のカット、音声仕上げ、録音のクリーニング、文字起こしと編集などが必要な場面でご利用ください。
description の原文を見る
AI-powered audio/video editing — transcription, intelligent cut detection, automated editing with crossfades, and optional cloud polish. USE WHEN clean audio, edit audio, remove filler words, clean podcast, remove ums, fix audio, cut dead air, polish audio, clean recording, transcribe and edit.
SKILL.md 本文
AudioEditor
AI駆動のオーディオ/ビデオ編集 — トランスクリプション、インテリジェント カット検出、クロスフェード付き自動編集、オプションのクラウドポーリッシング対応。
カスタマイズ
実行前に、以下の場所でユーザーカスタマイズを確認してください:
~/.config/openpai/PAI/USER/SKILLCUSTOMIZATIONS/AudioEditor/
このディレクトリが存在する場合は、そこにある PREFERENCES.md、設定、またはリソースを読み込んで適用します。これらはデフォルトの動作をオーバーライドします。ディレクトリが存在しない場合は、スキルのデフォルト設定で進めます。
音声通知
このスキルが呼び出されたら、他に何もする前にこの通知を送信する必要があります。
-
音声通知を送信:
curl -s -X POST http://localhost:8888/notify \ -H "Content-Type: application/json" \ -d '{"message": "Running the WORKFLOWNAME workflow in the AudioEditor skill to ACTION"}' \ > /dev/null 2>&1 & -
テキスト通知を出力:
Running the **WorkflowName** workflow in the **AudioEditor** skill to ACTION...
これはオプションではありません。スキル呼び出し時に直ちにこのcurlコマンドを実行してください。
ワークフロー ルーティング
| ワークフロー | トリガー | ファイル |
|---|---|---|
| Clean | "clean audio", "edit audio", "remove filler words", "clean podcast", "remove ums", "cut dead air", "polish audio" | Workflows/Clean.md |
パイプライン アーキテクチャ
Audio Input
|
[Transcribe] Whisper word-level timestamps (insanely-fast-whisper on MPS)
|
[Analyze] Claude classifies each segment:
| KEEP / CUT_FILLER / CUT_FALSE_START / CUT_EDIT_MARKER / CUT_STUTTER / CUT_DEAD_AIR
| Distinguishes rhetorical emphasis from accidental repetition
|
[Edit] ffmpeg executes cuts:
| - 40ms qsin crossfades at every edit point
| - Room tone extraction and gap filling
| - Breath attenuation (50% volume, not removal)
|
[Polish] (optional) Cleanvoice API final pass:
- Mouth sound removal
- Remaining filler detection
- Loudness normalization
Output: cleaned MP3/WAV
ツール
| ツール | コマンド | 目的 |
|---|---|---|
| Transcribe | bun ~/.config/openpai/skills/Utilities/AudioEditor/Tools/Transcribe.ts <file> | Whisperを使用した単語レベルのトランスクリプション |
| Analyze | bun ~/.config/openpai/skills/Utilities/AudioEditor/Tools/Analyze.ts <transcript.json> | LLM駆動の編集分類 |
| Edit | bun ~/.config/openpai/skills/Utilities/AudioEditor/Tools/Edit.ts <file> <edits.json> | クロスフェード + ルームトーン付きカット実行 |
| Polish | bun ~/.config/openpai/skills/Utilities/AudioEditor/Tools/Polish.ts <file> | Cleanvoice API クラウドポーリッシング |
| Pipeline | bun ~/.config/openpai/skills/Utilities/AudioEditor/Tools/Pipeline.ts <file> [--polish] | 完全なエンドツーエンド パイプライン |
必須APIキー
| サービス | 環境変数 | 取得方法 |
|---|---|---|
| Anthropic (analyze ステップ用) | ANTHROPIC_API_KEY | OpenCode経由で既に設定済み |
| Cleanvoice (polish ステップ用、オプション) | CLEANVOICE_API_KEY | cleanvoice.ai ダッシュボード設定のAPIキー |
例
例1: ポッドキャスト録音をクリーニング
ユーザー: "clean up the audio on this podcast file"
-> Clean ワークフロー呼び出し
-> 完全なパイプライン実行: transcribe -> analyze -> edit
-> フィラー ワード、スタッター、無音部を削除したクリーンなMP3を出力
例2: 適用前に編集をプレビュー
ユーザー: "show me what edits you'd make to this recording"
-> Clean ワークフローを --preview フラグ付きで呼び出し
-> トランスクライブと分析、提案された編集をオーディオを変更せずに表示
-> ユーザーが編集リストをレビュー後、再実行して適用
例3: クラウドポーリッシング付きの積極的なクリーニング
ユーザー: "aggressively clean this audio and polish it"
-> Clean ワークフローを --aggressive --polish フラグ付きで呼び出し
-> フィラー検出のしきい値をより厳しく設定
-> マウスサウンドと正規化向けのCleanvoice APIパス
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- BishopCodes
- リポジトリ
- BishopCodes/OpenPAI
- ライセンス
- MIT
- 最終更新
- 2026/3/13
Source: https://github.com/BishopCodes/OpenPAI / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。