Anthropic Claude音声・動画・メディア⭐ リポ 0品質スコア 50/100

asr

Name: asr
Author: marswaveai

音声ファイルをローカルの音声認識技術を使ってテキストに書き起こします。「transcribe」「ASR」「音声をテキストに変換」などのキーワードで起動します。

description の原文を見る

| Transcribe audio files to text using local speech recognition. Triggers on: "转录", "transcribe", "语音转文字", "ASR", "识别音频", "把这段音频转成文字".

SKILL.md 本文

使用する場面

ユーザーが音声ファイルをテキストに変換したい
ユーザーが音声ファイルのパスを提供して変換をリクエストしている
ユーザーが「转录」「识别」「transcribe」「语音转文字」と言っている

使用しない場面

ユーザーがテキストから音声合成を希望している場合（/tts を使用）
ユーザーがポッドキャストや解説動画を作成したい場合（/podcast または /explainer を使用）

目的

coli asr を使用して音声ファイルをテキストに変換します。ローカル音声認識モデルで完全オフラインで動作します。API キーは不要です。中国語、英語、日本語、韓国語、広東語（sensevoice モデル）または英語のみ（whisper モデル）をサポートしています。

現在の CLI オプションとサポートされているフラグについては、coli asr --help を実行してください。

厳格な制約

シェルスクリプトはなし。直接コマンドのみを使用してください。
やり取りの前に必ず shared/config-pattern.md に従って設定を読み込んでください
shared/cli-patterns.md に従ってやり取りパターンに従ってください
一度に複数の質問をしないでください

<HARD-GATE> 複数選択肢のステップでは AskUserQuestion ツールを使用してください — プレーンテキストとしてオプションを印字しないでください。一度に1つの質問をしてください。先に進む前にユーザーの回答を待ってください。すべてのパラメータが収集された後、要約して実行前に確認をリクエストしてください。 </HARD-GATE>

やり取りフロー

ステップ 0: 前提条件チェック

設定セットアップの前に、環境を黙って確認してください：

COLI_OK=$(which coli 2>/dev/null && echo yes || echo no)
FFMPEG_OK=$(which ffmpeg 2>/dev/null && echo yes || echo no)
MODELS_DIR="$HOME/.coli/models"
MODELS_OK=$([ -d "$MODELS_DIR" ] && ls "$MODELS_DIR" | grep -q sherpa && echo yes || echo no)

問題	対応
`coli` が見つからない	ブロック。ユーザーに先に `npm install -g @marswave/coli` を実行するよう伝える
`ffmpeg` が見つからない	警告（WAV ファイルはまだ動作）。`brew install ffmpeg` / `sudo apt install ffmpeg` を提案
モデルがダウンロードされていない	ユーザーに通知：最初の変換で自動的にモデル（約 60MB）が `~/.coli/models/` にダウンロードされます

coli が見つからない場合は、ここで停止して進めないでください。

ステップ 0: 設定セットアップ

shared/config-pattern.md ステップ 0（ゼロクエスチョンブート）に従ってください。

ファイルが存在しない場合 — デフォルトで黙って作成して進めます：

mkdir -p ".listenhub/asr"
echo '{"model":"sensevoice","polish":true}' > ".listenhub/asr/config.json"
CONFIG_PATH=".listenhub/asr/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップの質問をしないでください。 適切なデフォルト値（sensevoice モデル、ポーリング有効）でやり取りフローに直接進んでください。

ファイルが存在する場合 — 設定を黙って読み込んで進めます：

CONFIG_PATH=".listenhub/asr/config.json"
[ ! -f "$CONFIG_PATH" ] && CONFIG_PATH="$HOME/.listenhub/asr/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップフロー（ユーザーが明確に再設定を要求する場合のみ）

ユーザーが明確に再設定をリクエストした場合にのみ実行してください。現在の設定を表示してください：

当前配置 (asr)：
  模型：sensevoice / whisper-tiny.en
  润色：开启 / 关闭

順番に質問してください：

model: 「默认使用哪个语音识别模型？」
- 「sensevoice（推荐）」— 中英日韓粤をサポート、言語・感情・音声イベント検出可能
- 「whisper-tiny.en」— 英語のみ
polish: 「转录后由 AI 润色文本？（修正标点、去语气词、提升可读性）」
- 「是（推荐）」→ polish: true
- 「否，保留原始转录」→ polish: false

すべての回答を収集した後、一度にすべて保存してください。

ステップ 1: 音声ファイルを取得

ユーザーがファイルパスを指定していない場合は、質問してください：

「请提供要转录的音频文件路径。」

続行する前にファイルが存在することを確認してください。

ステップ 2: 確認

准备转录：

  文件：{filename}
  模型：{model}
  润色：{是 / 否}

继续？

ステップ 3: 変換

JSON 出力で coli asr を実行します（メタデータを取得するため）：

coli asr -j --model {model} "{file}"

初回実行時、coli は必要なモデルを自動的にダウンロードします。モデルがまだダウンロードされていない場合は、ユーザーに知らせてください。

JSON 結果を解析して text、lang、emotion、event、duration を抽出してください。

ステップ 4: ポーリング（有効な場合）

polish が true の場合、変換結果から生テキストを取得し、句読点を修正し、フィラーワードを削除して可読性を向上させます。元の意味とスピーカーの意図を保持してください。要約やパラフレーズはしないでください。

ステップ 5: 結果を表示

トランスクリプトを会話に直接表示します：

转录完成

{transcript text}

─────────────────
语言：{lang} · 情绪：{emotion} · 时长：{duration}s

ポーリング済みの場合、AI で改良されたことを記載してポーリング版を表示してください。リクエストに応じて元の生版を表示するオプションを提供してください。

ステップ 6: Markdown としてエクスポート（オプション）

結果を表示した後、質問してください：

Question: 「保存为 Markdown 文件到当前目录？」
Options:
  - 「是」— 現在のディレクトリに保存
  - 「否」— 完了

はいの場合、{audio-filename}-transcript.md を 現在の作業ディレクトリ（ユーザーが Claude Code を実行しているディレクトリ）に書き込んでください。ファイルには、トランスクリプトテキスト（ポーリング有効な場合はポーリング版）とフロントマターヘッダーが含まれます：

---
source: {original audio filename}
date: {YYYY-MM-DD}
model: {model used}
duration: {duration}s
lang: {detected language}
---

{transcript text}

構成可能性

呼び出し元: 将来、録音した音声を変換する必要があるスキル
呼び出し対象: なし

例

「帮我转录这个文件 meeting.m4a」

前提条件をチェック
設定を読み込む
確認：meeting.m4a、sensevoice、ポーリング有効
coli asr -j --model sensevoice "meeting.m4a" を実行
生テキストをポーリング
インラインで表示

「transcribe interview.wav, no polish」

前提条件をチェック
設定を読み込む
このセッションのポーリングをオフにオーバーライド
coli asr -j --model sensevoice "interview.wav" を実行
生のトランスクリプトをインラインで表示

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: marswaveai
リポジトリ: marswaveai/skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/marswaveai/skills / ライセンス: MIT

asr

SKILL.md 本文

使用する場面

使用しない場面

目的

厳格な制約

やり取りフロー

ステップ 0: 前提条件チェック

ステップ 0: 設定セットアップ

セットアップフロー（ユーザーが明確に再設定を要求する場合のみ）

ステップ 1: 音声ファイルを取得

ステップ 2: 確認

ステップ 3: 変換

ステップ 4: ポーリング（有効な場合）

ステップ 5: 結果を表示

ステップ 6: Markdown としてエクスポート（オプション）

構成可能性

例

詳細情報

関連スキル

listenhub

best-youtube-video-editor

video

clipify

speech

depth-estimation