asr
音声ファイルをローカルの音声認識技術を使ってテキストに書き起こします。「transcribe」「ASR」「音声をテキストに変換」などのキーワードで起動します。
description の原文を見る
| Transcribe audio files to text using local speech recognition. Triggers on: "转录", "transcribe", "语音转文字", "ASR", "识别音频", "把这段音频转成文字".
SKILL.md 本文
使用する場面
- ユーザーが音声ファイルをテキストに変換したい
- ユーザーが音声ファイルのパスを提供して変換をリクエストしている
- ユーザーが「转录」「识别」「transcribe」「语音转文字」と言っている
使用しない場面
- ユーザーがテキストから音声合成を希望している場合(
/ttsを使用) - ユーザーがポッドキャストや解説動画を作成したい場合(
/podcastまたは/explainerを使用)
目的
coli asr を使用して音声ファイルをテキストに変換します。ローカル音声認識モデルで完全オフラインで動作します。API キーは不要です。中国語、英語、日本語、韓国語、広東語(sensevoice モデル)または英語のみ(whisper モデル)をサポートしています。
現在の CLI オプションとサポートされているフラグについては、coli asr --help を実行してください。
厳格な制約
- シェルスクリプトはなし。直接コマンドのみを使用してください。
- やり取りの前に必ず
shared/config-pattern.mdに従って設定を読み込んでください shared/cli-patterns.mdに従ってやり取りパターンに従ってください- 一度に複数の質問をしないでください
やり取りフロー
ステップ 0: 前提条件チェック
設定セットアップの前に、環境を黙って確認してください:
COLI_OK=$(which coli 2>/dev/null && echo yes || echo no)
FFMPEG_OK=$(which ffmpeg 2>/dev/null && echo yes || echo no)
MODELS_DIR="$HOME/.coli/models"
MODELS_OK=$([ -d "$MODELS_DIR" ] && ls "$MODELS_DIR" | grep -q sherpa && echo yes || echo no)
| 問題 | 対応 |
|---|---|
coli が見つからない | ブロック。ユーザーに先に npm install -g @marswave/coli を実行するよう伝える |
ffmpeg が見つからない | 警告(WAV ファイルはまだ動作)。brew install ffmpeg / sudo apt install ffmpeg を提案 |
| モデルがダウンロードされていない | ユーザーに通知:最初の変換で自動的にモデル(約 60MB)が ~/.coli/models/ にダウンロードされます |
coli が見つからない場合は、ここで停止して進めないでください。
ステップ 0: 設定セットアップ
shared/config-pattern.md ステップ 0(ゼロクエスチョンブート)に従ってください。
ファイルが存在しない場合 — デフォルトで黙って作成して進めます:
mkdir -p ".listenhub/asr"
echo '{"model":"sensevoice","polish":true}' > ".listenhub/asr/config.json"
CONFIG_PATH=".listenhub/asr/config.json"
CONFIG=$(cat "$CONFIG_PATH")
セットアップの質問をしないでください。 適切なデフォルト値(sensevoice モデル、ポーリング有効)でやり取りフローに直接進んでください。
ファイルが存在する場合 — 設定を黙って読み込んで進めます:
CONFIG_PATH=".listenhub/asr/config.json"
[ ! -f "$CONFIG_PATH" ] && CONFIG_PATH="$HOME/.listenhub/asr/config.json"
CONFIG=$(cat "$CONFIG_PATH")
セットアップフロー(ユーザーが明確に再設定を要求する場合のみ)
ユーザーが明確に再設定をリクエストした場合にのみ実行してください。現在の設定を表示してください:
当前配置 (asr):
模型:sensevoice / whisper-tiny.en
润色:开启 / 关闭
順番に質問してください:
-
model: 「默认使用哪个语音识别模型?」
- 「sensevoice(推荐)」— 中英日韓粤をサポート、言語・感情・音声イベント検出可能
- 「whisper-tiny.en」— 英語のみ
-
polish: 「转录后由 AI 润色文本?(修正标点、去语气词、提升可读性)」
- 「是(推荐)」→
polish: true - 「否,保留原始转录」→
polish: false
- 「是(推荐)」→
すべての回答を収集した後、一度にすべて保存してください。
ステップ 1: 音声ファイルを取得
ユーザーがファイルパスを指定していない場合は、質問してください:
「请提供要转录的音频文件路径。」
続行する前にファイルが存在することを確認してください。
ステップ 2: 確認
准备转录:
文件:{filename}
模型:{model}
润色:{是 / 否}
继续?
ステップ 3: 変換
JSON 出力で coli asr を実行します(メタデータを取得するため):
coli asr -j --model {model} "{file}"
初回実行時、coli は必要なモデルを自動的にダウンロードします。モデルがまだダウンロードされていない場合は、ユーザーに知らせてください。
JSON 結果を解析して text、lang、emotion、event、duration を抽出してください。
ステップ 4: ポーリング(有効な場合)
polish が true の場合、変換結果から生テキストを取得し、句読点を修正し、フィラーワードを削除して可読性を向上させます。元の意味とスピーカーの意図を保持してください。要約やパラフレーズはしないでください。
ステップ 5: 結果を表示
トランスクリプトを会話に直接表示します:
转录完成
{transcript text}
─────────────────
语言:{lang} · 情绪:{emotion} · 时长:{duration}s
ポーリング済みの場合、AI で改良されたことを記載してポーリング版を表示してください。リクエストに応じて元の生版を表示するオプションを提供してください。
ステップ 6: Markdown としてエクスポート(オプション)
結果を表示した後、質問してください:
Question: 「保存为 Markdown 文件到当前目录?」
Options:
- 「是」— 現在のディレクトリに保存
- 「否」— 完了
はいの場合、{audio-filename}-transcript.md を 現在の作業ディレクトリ(ユーザーが Claude Code を実行しているディレクトリ)に書き込んでください。ファイルには、トランスクリプトテキスト(ポーリング有効な場合はポーリング版)とフロントマターヘッダーが含まれます:
---
source: {original audio filename}
date: {YYYY-MM-DD}
model: {model used}
duration: {duration}s
lang: {detected language}
---
{transcript text}
構成可能性
- 呼び出し元: 将来、録音した音声を変換する必要があるスキル
- 呼び出し対象: なし
例
「帮我转录这个文件 meeting.m4a」
- 前提条件をチェック
- 設定を読み込む
- 確認:meeting.m4a、sensevoice、ポーリング有効
coli asr -j --model sensevoice "meeting.m4a"を実行- 生テキストをポーリング
- インラインで表示
「transcribe interview.wav, no polish」
- 前提条件をチェック
- 設定を読み込む
- このセッションのポーリングをオフにオーバーライド
coli asr -j --model sensevoice "interview.wav"を実行- 生のトランスクリプトをインラインで表示
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- marswaveai
- リポジトリ
- marswaveai/skills
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/marswaveai/skills / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。