Agent Skills by ALSEL
汎用音声・動画・メディア⭐ リポ 0品質スコア 55/100

whisper-transcribe

OpenAI の Whisper CLI を使用して、音声・動画ファイルをテキストに変換します。文脈情報に基づいて精度の高い文字起こしを実現します。 音声・動画ファイルのテキスト変換、録音の文字起こし、メディアファイルからのトランスクリプト作成に対応しています。「whisper で文字起こしする」「音声を文字起こしする」「録音をテキストに変換する」「音声をテキストに変換する」といったご依頼の際に使用します。 同じディレクトリに配置されたマークダウンファイルを文脈情報として活用することで、技術用語・固有名詞・業界用語の認識精度を向上させます。

description の原文を見る

Transcribes audio and video files to text using OpenAI's Whisper CLI with contextual grounding. Converts audio/video to text, transcribes recordings, and creates transcripts from media files. Use when asked to "whisper transcribe", "transcribe audio", "convert recording to text", or "speech to text". Uses markdown files in the same directory as context to improve transcription accuracy for technical terms, proper nouns, and domain-specific vocabulary.

SKILL.md 本文

Whisper トランスクライブ スキル

OpenAI の Whisper とマークダウンファイルからのコンテキストグラウンディングを使用して、オーディオおよびビデオファイルをテキストに変換します。

目的

インテリジェントなオーディオ/ビデオトランスクリプション機能:

  1. メディアファイルを正確なテキストトランスクリプトに変換
  2. マークダウンコンテキストファイルを使用して、技術用語、名前、専門用語を修正
  3. 様々なオーディオ/ビデオ形式に対応(mp3、wav、m4a、mp4、webm など)

使用する場合

  • ユーザーがオーディオまたはビデオファイルのトランスクリプション化を要求した場合
  • ユーザーが録音をテキストに変換したい場合
  • ユーザーがトランスクリプション文脈で「whisper」を言及した場合
  • ユーザーが会議メモやインタビュー記録が必要な場合
  • ユーザーが領域固有の用語を含むメディアファイルを持っている場合

インストール

macOS(MacBook Pro に推奨)

# Homebrew 経由でインストール(推奨)
brew install ffmpeg openai-whisper

# インストール確認
whisper --version

Linux/pip インストール

# ffmpeg を最初にインストール
sudo apt install ffmpeg  # Debian/Ubuntu
# または: sudo dnf install ffmpeg  # Fedora

# Whisper をインストール
pip install openai-whisper

インストール確認

whisper --version
ffmpeg -version

トランスクリプション ワークフロー

ステップ 1: メディアファイルとコンテキストを識別

  1. トランスクリプション化するオーディオ/ビデオファイルを特定
  2. 同じディレクトリ内のマークダウンファイル(コンテキストファイル)を確認
  3. コンテキストファイルが存在しない場合は、必要に応じて assets/context-template.md を使用して作成

ステップ 2: Whisper トランスクリプションを実行

基本的なトランスクリプション:

whisper "/path/to/audio.mp3" --output_dir "/path/to/output"

モデル選択付き(トレードオフ: 速度 vs 精度):

# 高速(精度は低い)
whisper "audio.mp3" --model tiny

# バランス型(推奨)
whisper "audio.mp3" --model base

# 高品質
whisper "audio.mp3" --model small

# 最高品質(遅い、より多くの RAM が必要)
whisper "audio.mp3" --model medium
whisper "audio.mp3" --model large

言語指定付き:

whisper "audio.mp3" --language en

出力形式オプション:

whisper "audio.mp3" --output_format txt    # プレーンテキスト
whisper "audio.mp3" --output_format srt    # 字幕
whisper "audio.mp3" --output_format vtt    # Web 字幕
whisper "audio.mp3" --output_format json   # 詳細 JSON
whisper "audio.mp3" --output_format all    # すべての形式

ステップ 3: コンテキストグラウンディングを適用

scripts/transcribe_with_context.py スクリプトを使用した自動グラウンディング、または手動で修正を適用します:

# 自動アプローチ(推奨)
python scripts/transcribe_with_context.py /path/to/audio.mp3

手動グラウンディングの場合:

  1. トランスクリプト出力を読む
  2. メディアファイルのディレクトリ内のすべての .md ファイルを読む
  3. コンテキストファイルから用語、名前、技術用語を抽出
  4. トランスクリプトで誤認識の可能性がある箇所を検索
  5. コンテキストに基づいて修正を適用

一般的な修正:

  • 「cooler net ease」→「Kubernetes」
  • 「sequel」→「SQL」
  • 「post gress」→「Postgres」
  • 名前: 音韻的なバリエーションをコンテキストファイル内の名前に一致させる

ステップ 4: 修正されたトランスクリプトを保存

グラウンディングされたトランスクリプトを明確なファイル名で保存:

original_filename_transcript.txt
original_filename_transcript.md

コンテキストファイル

コンテキストファイルは、メディアファイルと同じディレクトリに置かれるマークダウンファイルです。トランスクリプション精度を向上させるためのグラウンディング情報を提供します。

コンテキストファイルに含める内容

  • 人物: スピーカー、チームメンバー、インタビューイーの名前
  • 技術用語: 領域固有の語彙、製品名
  • 頭字語: 略語とその拡張形
  • 組織: 企業名、部門名
  • プロジェクト: プロジェクトコードネーム、機能名

コンテキストファイルの例

完全なテンプレートは assets/context-template.md を参照してください。

# ミーティングコンテキスト

## スピーカー
- Richard Hightower(ホスト)
- Jane Smith(エンジニアリングリード)

## 技術用語
- Kubernetes(コンテナオーケストレーション)
- FastAPI(Python ウェブフレームワーク)
- AlloyDB(Google Cloud データベース)

## 頭字語
- CI/CD - 継続的インテグレーション/継続的デプロイメント
- PR - プルリクエスト

モデル選択ガイド

一般的な用途には base を使用し、重要な録音には medium を使用してください。完全なモデル比較と利用可能なすべてのオプションについては、references/whisper-options.md を参照してください。

クイックリファレンス: tiny(最速) < base(バランス型) < small(良好) < medium(高品質) < large(最高精度)

Apple Silicon 搭載の MacBook Pro の場合: 最適な速度/精度のバランスのために small または medium モデルを推奨します。

トラブルシューティング

「whisper: command not found」

# macOS
brew install openai-whisper

# Linux
pip install openai-whisper
export PATH="$HOME/.local/bin:$PATH"

「ffmpeg not found」

# macOS
brew install ffmpeg

# Linux
sudo apt install ffmpeg

メモリ不足エラー

より小さいモデルを使用:

whisper "audio.mp3" --model tiny

トランスクリプション速度が遅い

  • より高速な結果のために tiny または base モデルを使用
  • 正しいアーキテクチャが使用されていることを確認(Apple Silicon vs Intel)

リソース

scripts/

scripts/transcribe_with_context.py スクリプトは完全なワークフローを自動化します:

  • コンテキストファイルを自動的に検出
  • Whisper トランスクリプションを実行
  • コンテキストベースの修正を適用
  • 最終的なトランスクリプトを保存

使用方法:

python scripts/transcribe_with_context.py /path/to/audio.mp3

references/

完全な CLI リファレンスと高度なオプションについては、references/whisper-options.md を参照してください。

assets/

assets/context-template.md は、トランスクリプション精度を向上させるためのコンテキストファイルを作成するためのテンプレートを提供します。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
SpillwaveSolutions
リポジトリ
SpillwaveSolutions/whisper-transcribe
ライセンス
MIT
最終更新
2025/12/29

Source: https://github.com/SpillwaveSolutions/whisper-transcribe / ライセンス: MIT

関連スキル

汎用音声・動画・メディア⭐ リポ 1,982

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 1,982

best-youtube-video-editor

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31
汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer
OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai
汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: SpillwaveSolutions · SpillwaveSolutions/whisper-transcribe · ライセンス: MIT