whisper-transcription
音声・動画ファイルをOpenAI Whisperを使ってテキストに文字起こしします。ポッドキャストのブログ記事化、動画の字幕作成、インタビューからの引用抽出、動画コンテンツのテキスト転用、検索可能な音声アーカイブの構築などに活用できます。
description の原文を見る
Transcribe audio and video files to text using OpenAI Whisper. Use when: converting podcasts to blog posts; creating video subtitles; extracting quotes from interviews; repurposing video content to text; building searchable audio archives
SKILL.md 本文
Whisper トランスクリプション
OpenAI の Whisper モデルを使用して、あらゆるオーディオまたはビデオをテキストに変換します。ChatGPT の音声機能を支える同じテクノロジーです。
このスキルを使用する場合
- ポッドキャストの再利用 - エピソードをブログ投稿、ショーノート、ソーシャルメディアスニペットに変換
- ビデオ字幕 - YouTube やソーシャルメディア用の SRT/VTT ファイルを生成
- インタビュー抽出 - 録音された通話から引用と洞察を抽出
- コンテンツ監査 - オーディオ/ビデオライブラリを検索可能にする
- 翻訳 - 外国語コンテンツのトランスクリプションと翻訳
Claude が行うこと vs あなたが決めること
| Claude が行うこと | あなたが決めること |
|---|---|
| 制作ワークフローの構造化 | 最終的な創造的方向性 |
| 技術的なアプローチの提案 | 機器とツールの選択 |
| テンプレートとチェックリストの作成 | 品質基準 |
| ベストプラクティスの特定 | ブランド/声の決定 |
| スクリプトアウトラインの生成 | 最終スクリプト承認 |
依存関係
pip install openai-whisper torch ffmpeg-python click
# Also requires ffmpeg installed on system
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg
コマンド
単一ファイルのトランスクリプション
python scripts/main.py transcribe audio.mp3 --model medium --output transcript.txt
python scripts/main.py transcribe video.mp4 --format srt --output subtitles.srt
バッチトランスクリプション
python scripts/main.py batch ./recordings/ --format txt --output ./transcripts/
トランスクリプション + 翻訳
python scripts/main.py translate foreign-audio.mp3 --to en
タイムスタンプの抽出
python scripts/main.py timestamps podcast.mp3 --format json
例
例 1: ポッドキャストからブログ投稿へ
# 1 時間のポッドキャストをトランスクリプション
python scripts/main.py transcribe episode-42.mp3 --model medium
# 出力: episode-42.txt (タイムスタンプ付きの完全トランスクリプション)
# 処理時間: M1 Mac で 1 時間のオーディオに対して約 5 分
例 2: YouTube 字幕
# ビデオアップロード用に SRT を生成
python scripts/main.py transcribe marketing-video.mp4 --format srt
# 出力: marketing-video.srt
# YouTube/Vimeo に直接アップロード
例 3: インタビューライブラリのバッチ処理
# フォルダ内のすべての録音をトランスクリプション
python scripts/main.py batch ./customer-interviews/ --model small --format txt
# 出力: ./customer-interviews/*.txt (オーディオファイルごとに 1 つ)
モデル選択ガイド
| モデル | 速度 | 精度 | VRAM | 用途 |
|---|---|---|---|---|
tiny | 最速 | ~70% | 1GB | クイックドラフト、短いクリップ |
base | 高速 | ~80% | 1GB | ソーシャルメディアクリップ |
small | 中速 | ~85% | 2GB | ポッドキャスト、インタビュー |
medium | 低速 | ~90% | 5GB | プロフェッショナルトランスクリプション |
large | 最低速 | ~95% | 10GB | 高精度が必要なケース |
推奨事項: ほとんどのマーケティングコンテンツは small で開始します。クライアント納品物には medium を使用してください。
出力フォーマット
| フォーマット | 拡張子 | 用途 |
|---|---|---|
txt | .txt | ブログ投稿、分析 |
srt | .srt | ビデオ字幕 (YouTube) |
vtt | .vtt | ウェブビデオ字幕 |
json | .json | プログラムによるアクセス |
tsv | .tsv | スプレッドシート分析 |
パフォーマンスのコツ
- GPU アクセラレーション - CUDA GPU で 10 倍高速化
- オーディオ抽出 - スクリプトが自動的にビデオからオーディオを抽出
- チャンキング - 長いファイルはメモリ効率のため自動分割
- 言語検出 - 自動、または
--languageで指定
スキルの境界
このスキルが得意なこと
- オーディオ制作ワークフローの構造化
- 技術的ガイダンスの提供
- 品質チェックリストの作成
- 創造的なアプローチの提案
このスキルにはできないこと
- オーディオエンジニアリング専門知識の代替
- 主観的な創造的決定
- オーディオファイルの直接アクセスまたは編集
- 商業的成功の保証
関連スキル
video-processing- ビデオからオーディオを抽出youtube-downloader- トランスクリプション用のビデオをダウンロードcontent-repurposer- トランスクリプションをコンテンツに変換podcast-production- ポッドキャストを作成
スキルメタデータ
- モード: cyborg
category: automation
subcategory: audio-processing
dependencies: [openai-whisper, torch, ffmpeg-python]
difficulty: beginner
time_saved: 10+ hours/week
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- guia-matthieu
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/guia-matthieu/clawfu-skills / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。