汎用音声・動画・メディア⭐ リポ 0品質スコア 55/100

whisper-transcribe

Name: whisper-transcribe
Author: SpillwaveSolutions

OpenAI の Whisper CLI を使用して、音声・動画ファイルをテキストに変換します。文脈情報に基づいて精度の高い文字起こしを実現します。音声・動画ファイルのテキスト変換、録音の文字起こし、メディアファイルからのトランスクリプト作成に対応しています。「whisper で文字起こしする」「音声を文字起こしする」「録音をテキストに変換する」「音声をテキストに変換する」といったご依頼の際に使用します。同じディレクトリに配置されたマークダウンファイルを文脈情報として活用することで、技術用語・固有名詞・業界用語の認識精度を向上させます。

description の原文を見る

Transcribes audio and video files to text using OpenAI's Whisper CLI with contextual grounding. Converts audio/video to text, transcribes recordings, and creates transcripts from media files. Use when asked to "whisper transcribe", "transcribe audio", "convert recording to text", or "speech to text". Uses markdown files in the same directory as context to improve transcription accuracy for technical terms, proper nouns, and domain-specific vocabulary.

SKILL.md 本文

Whisper トランスクライブスキル

OpenAI の Whisper とマークダウンファイルからのコンテキストグラウンディングを使用して、オーディオおよびビデオファイルをテキストに変換します。

目的

インテリジェントなオーディオ/ビデオトランスクリプション機能:

メディアファイルを正確なテキストトランスクリプトに変換
マークダウンコンテキストファイルを使用して、技術用語、名前、専門用語を修正
様々なオーディオ/ビデオ形式に対応(mp3、wav、m4a、mp4、webm など)

使用する場合

ユーザーがオーディオまたはビデオファイルのトランスクリプション化を要求した場合
ユーザーが録音をテキストに変換したい場合
ユーザーがトランスクリプション文脈で「whisper」を言及した場合
ユーザーが会議メモやインタビュー記録が必要な場合
ユーザーが領域固有の用語を含むメディアファイルを持っている場合

インストール

macOS(MacBook Pro に推奨)

# Homebrew 経由でインストール(推奨)
brew install ffmpeg openai-whisper

# インストール確認
whisper --version

Linux/pip インストール

# ffmpeg を最初にインストール
sudo apt install ffmpeg  # Debian/Ubuntu
# または: sudo dnf install ffmpeg  # Fedora

# Whisper をインストール
pip install openai-whisper

インストール確認

whisper --version
ffmpeg -version

トランスクリプションワークフロー

ステップ 1: メディアファイルとコンテキストを識別

トランスクリプション化するオーディオ/ビデオファイルを特定
同じディレクトリ内のマークダウンファイル(コンテキストファイル)を確認
コンテキストファイルが存在しない場合は、必要に応じて assets/context-template.md を使用して作成

ステップ 2: Whisper トランスクリプションを実行

基本的なトランスクリプション:

whisper "/path/to/audio.mp3" --output_dir "/path/to/output"

モデル選択付き(トレードオフ: 速度 vs 精度):

# 高速(精度は低い)
whisper "audio.mp3" --model tiny

# バランス型(推奨)
whisper "audio.mp3" --model base

# 高品質
whisper "audio.mp3" --model small

# 最高品質(遅い、より多くの RAM が必要)
whisper "audio.mp3" --model medium
whisper "audio.mp3" --model large

言語指定付き:

whisper "audio.mp3" --language en

出力形式オプション:

whisper "audio.mp3" --output_format txt    # プレーンテキスト
whisper "audio.mp3" --output_format srt    # 字幕
whisper "audio.mp3" --output_format vtt    # Web 字幕
whisper "audio.mp3" --output_format json   # 詳細 JSON
whisper "audio.mp3" --output_format all    # すべての形式

ステップ 3: コンテキストグラウンディングを適用

scripts/transcribe_with_context.py スクリプトを使用した自動グラウンディング、または手動で修正を適用します:

# 自動アプローチ(推奨)
python scripts/transcribe_with_context.py /path/to/audio.mp3

手動グラウンディングの場合:

トランスクリプト出力を読む
メディアファイルのディレクトリ内のすべての .md ファイルを読む
コンテキストファイルから用語、名前、技術用語を抽出
トランスクリプトで誤認識の可能性がある箇所を検索
コンテキストに基づいて修正を適用

一般的な修正:

「cooler net ease」→「Kubernetes」
「sequel」→「SQL」
「post gress」→「Postgres」
名前: 音韻的なバリエーションをコンテキストファイル内の名前に一致させる

ステップ 4: 修正されたトランスクリプトを保存

グラウンディングされたトランスクリプトを明確なファイル名で保存:

original_filename_transcript.txt
original_filename_transcript.md

コンテキストファイル

コンテキストファイルは、メディアファイルと同じディレクトリに置かれるマークダウンファイルです。トランスクリプション精度を向上させるためのグラウンディング情報を提供します。

コンテキストファイルに含める内容

人物: スピーカー、チームメンバー、インタビューイーの名前
技術用語: 領域固有の語彙、製品名
頭字語: 略語とその拡張形
組織: 企業名、部門名
プロジェクト: プロジェクトコードネーム、機能名

コンテキストファイルの例

完全なテンプレートは assets/context-template.md を参照してください。

# ミーティングコンテキスト

## スピーカー
- Richard Hightower(ホスト)
- Jane Smith(エンジニアリングリード)

## 技術用語
- Kubernetes(コンテナオーケストレーション)
- FastAPI(Python ウェブフレームワーク)
- AlloyDB(Google Cloud データベース)

## 頭字語
- CI/CD - 継続的インテグレーション/継続的デプロイメント
- PR - プルリクエスト

モデル選択ガイド

一般的な用途には base を使用し、重要な録音には medium を使用してください。完全なモデル比較と利用可能なすべてのオプションについては、references/whisper-options.md を参照してください。

クイックリファレンス: tiny(最速) < base(バランス型) < small(良好) < medium(高品質) < large(最高精度)

Apple Silicon 搭載の MacBook Pro の場合: 最適な速度/精度のバランスのために small または medium モデルを推奨します。

トラブルシューティング

「whisper: command not found」

# macOS
brew install openai-whisper

# Linux
pip install openai-whisper
export PATH="$HOME/.local/bin:$PATH"

「ffmpeg not found」

# macOS
brew install ffmpeg

# Linux
sudo apt install ffmpeg

メモリ不足エラー

より小さいモデルを使用:

whisper "audio.mp3" --model tiny

トランスクリプション速度が遅い

より高速な結果のために tiny または base モデルを使用
正しいアーキテクチャが使用されていることを確認(Apple Silicon vs Intel)

リソース

scripts/

scripts/transcribe_with_context.py スクリプトは完全なワークフローを自動化します:

コンテキストファイルを自動的に検出
Whisper トランスクリプションを実行
コンテキストベースの修正を適用
最終的なトランスクリプトを保存

使用方法:

python scripts/transcribe_with_context.py /path/to/audio.mp3

references/

完全な CLI リファレンスと高度なオプションについては、references/whisper-options.md を参照してください。

assets/

assets/context-template.md は、トランスクリプション精度を向上させるためのコンテキストファイルを作成するためのテンプレートを提供します。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: SpillwaveSolutions
リポジトリ: SpillwaveSolutions/whisper-transcribe
ライセンス: MIT
最終更新: 2025/12/29

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/SpillwaveSolutions/whisper-transcribe / ライセンス: MIT

whisper-transcribe

SKILL.md 本文

Whisper トランスクライブスキル

目的

使用する場合

インストール

macOS(MacBook Pro に推奨)

Linux/pip インストール

インストール確認

トランスクリプションワークフロー

ステップ 1: メディアファイルとコンテキストを識別

ステップ 2: Whisper トランスクリプションを実行

ステップ 3: コンテキストグラウンディングを適用

ステップ 4: 修正されたトランスクリプトを保存

コンテキストファイル

コンテキストファイルに含める内容

コンテキストファイルの例

モデル選択ガイド

トラブルシューティング

「whisper: command not found」

「ffmpeg not found」

メモリ不足エラー

トランスクリプション速度が遅い

リソース

scripts/

references/

assets/

詳細情報

関連スキル

listenhub

best-youtube-video-editor

video

clipify

speech

depth-estimation

SKILL.md 本文

Whisper トランスクライブ スキル

目的

使用する場合

インストール

macOS(MacBook Pro に推奨)

Linux/pip インストール

インストール確認

トランスクリプション ワークフロー

ステップ 1: メディアファイルとコンテキストを識別

ステップ 2: Whisper トランスクリプションを実行

ステップ 3: コンテキストグラウンディングを適用

ステップ 4: 修正されたトランスクリプトを保存

コンテキストファイル

コンテキストファイルに含める内容

コンテキストファイルの例

モデル選択ガイド

トラブルシューティング

「whisper: command not found」

「ffmpeg not found」

メモリ不足エラー

トランスクリプション速度が遅い

リソース

scripts/

references/

assets/

詳細情報

関連スキル

listenhub

best-youtube-video-editor

video

clipify

speech

depth-estimation

Whisper トランスクライブスキル

トランスクリプションワークフロー