Anthropic Claude音声・動画・メディア⭐ リポ 0品質スコア 50/100

whisper-transcription

Name: whisper-transcription
Author: guia-matthieu

音声・動画ファイルをOpenAI Whisperを使ってテキストに文字起こしします。ポッドキャストのブログ記事化、動画の字幕作成、インタビューからの引用抽出、動画コンテンツのテキスト転用、検索可能な音声アーカイブの構築などに活用できます。

description の原文を見る

Transcribe audio and video files to text using OpenAI Whisper. Use when: converting podcasts to blog posts; creating video subtitles; extracting quotes from interviews; repurposing video content to text; building searchable audio archives

SKILL.md 本文

Whisper トランスクリプション

OpenAI の Whisper モデルを使用して、あらゆるオーディオまたはビデオをテキストに変換します。ChatGPT の音声機能を支える同じテクノロジーです。

このスキルを使用する場合

ポッドキャストの再利用 - エピソードをブログ投稿、ショーノート、ソーシャルメディアスニペットに変換
ビデオ字幕 - YouTube やソーシャルメディア用の SRT/VTT ファイルを生成
インタビュー抽出 - 録音された通話から引用と洞察を抽出
コンテンツ監査 - オーディオ/ビデオライブラリを検索可能にする
翻訳 - 外国語コンテンツのトランスクリプションと翻訳

Claude が行うこと vs あなたが決めること

Claude が行うこと	あなたが決めること
制作ワークフローの構造化	最終的な創造的方向性
技術的なアプローチの提案	機器とツールの選択
テンプレートとチェックリストの作成	品質基準
ベストプラクティスの特定	ブランド/声の決定
スクリプトアウトラインの生成	最終スクリプト承認

依存関係

pip install openai-whisper torch ffmpeg-python click
# Also requires ffmpeg installed on system
# macOS: brew install ffmpeg
# Ubuntu: sudo apt install ffmpeg

コマンド

単一ファイルのトランスクリプション

python scripts/main.py transcribe audio.mp3 --model medium --output transcript.txt
python scripts/main.py transcribe video.mp4 --format srt --output subtitles.srt

バッチトランスクリプション

python scripts/main.py batch ./recordings/ --format txt --output ./transcripts/

トランスクリプション + 翻訳

python scripts/main.py translate foreign-audio.mp3 --to en

タイムスタンプの抽出

python scripts/main.py timestamps podcast.mp3 --format json

例

例 1: ポッドキャストからブログ投稿へ

# 1 時間のポッドキャストをトランスクリプション
python scripts/main.py transcribe episode-42.mp3 --model medium

# 出力: episode-42.txt (タイムスタンプ付きの完全トランスクリプション)
# 処理時間: M1 Mac で 1 時間のオーディオに対して約 5 分

例 2: YouTube 字幕

# ビデオアップロード用に SRT を生成
python scripts/main.py transcribe marketing-video.mp4 --format srt

# 出力: marketing-video.srt
# YouTube/Vimeo に直接アップロード

例 3: インタビューライブラリのバッチ処理

# フォルダ内のすべての録音をトランスクリプション
python scripts/main.py batch ./customer-interviews/ --model small --format txt

# 出力: ./customer-interviews/*.txt (オーディオファイルごとに 1 つ)

モデル選択ガイド

モデル	速度	精度	VRAM	用途
`tiny`	最速	~70%	1GB	クイックドラフト、短いクリップ
`base`	高速	~80%	1GB	ソーシャルメディアクリップ
`small`	中速	~85%	2GB	ポッドキャスト、インタビュー
`medium`	低速	~90%	5GB	プロフェッショナルトランスクリプション
`large`	最低速	~95%	10GB	高精度が必要なケース

推奨事項: ほとんどのマーケティングコンテンツは small で開始します。クライアント納品物には medium を使用してください。

出力フォーマット

フォーマット	拡張子	用途
`txt`	.txt	ブログ投稿、分析
`srt`	.srt	ビデオ字幕 (YouTube)
`vtt`	.vtt	ウェブビデオ字幕
`json`	.json	プログラムによるアクセス
`tsv`	.tsv	スプレッドシート分析

パフォーマンスのコツ

GPU アクセラレーション - CUDA GPU で 10 倍高速化
オーディオ抽出 - スクリプトが自動的にビデオからオーディオを抽出
チャンキング - 長いファイルはメモリ効率のため自動分割
言語検出 - 自動、または --language で指定

スキルの境界

このスキルが得意なこと

オーディオ制作ワークフローの構造化
技術的ガイダンスの提供
品質チェックリストの作成
創造的なアプローチの提案

このスキルにはできないこと

オーディオエンジニアリング専門知識の代替
主観的な創造的決定
オーディオファイルの直接アクセスまたは編集
商業的成功の保証

スキルメタデータ

モード: cyborg

category: automation
subcategory: audio-processing
dependencies: [openai-whisper, torch, ffmpeg-python]
difficulty: beginner
time_saved: 10+ hours/week

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: guia-matthieu
リポジトリ: guia-matthieu/clawfu-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/guia-matthieu/clawfu-skills / ライセンス: MIT