whatsapp-voice
WhatsAppの音声メッセージをローカルのWhisper CLIで文字起こしします。オーナーまたはコンタクトがオーディオ/OGG形式の音声メッセージを送信した場合に使用します。Whisperによる文字起こし、CRMの更新、タスク作成を組み合わせて実行します。短いクリップはオフラインで処理し、長いクリップはOpenAI APIを利用します。ヘブライ語と英語に対応しています。
description の原文を見る
Transcribe WhatsApp voice messages using local Whisper CLI. Use when: owner or contact sends an audio/ogg voice message. Combines Whisper transcription + CRM update + task creation. Works offline for short clips, uses OpenAI API for long clips. Hebrew and English supported.
SKILL.md 本文
WhatsApp Voice — ユースケーススキル
これはユースケーススキルであり、スタンドアロン統合ではありません。以下を組み合わせています:
- openai-whisper CLI — 文字起こし
- personal-crm — 人物が言及された場合、コンタクトの Last Topic を更新
- monday / task tracker — 必要に応じてタスクを保存
文字起こし戦略(期間に応じた自動選択)
オーディオの長さに基づいてモデルを選択します:
| ティア | モデル | 使用場面 | 推定時間 |
|---|---|---|---|
| 1 — 高速 | tiny (ローカル) | ≤ 15 秒 | 5-15秒 |
| 2 — バランス型 | small (ローカル) | 15-60 秒 | 30-90秒 |
| 3 — 高精度 | OpenAI Whisper API | > 60 秒 | 2-5秒 |
自動選択スクリプト
#!/bin/bash
FILE="$1"
# Get duration
DURATION=$(ffprobe -v quiet -show_entries format=duration -of csv=p=0 "$FILE" 2>/dev/null | cut -d. -f1)
DURATION=${DURATION:-0}
if [ "$DURATION" -le 15 ]; then
MODEL="tiny"; TIMEOUT=30
elif [ "$DURATION" -le 60 ]; then
MODEL="small"; TIMEOUT=120
else
USE_API=true
fi
if [ "${USE_API:-false}" = true ]; then
RESULT=$(curl -s https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-F file="@$FILE" \
-F model="whisper-1" \
-F language="he" \
| jq -r '.text')
else
OUTDIR="/tmp/whisper-$$"
mkdir -p "$OUTDIR"
whisper "$FILE" --model "$MODEL" --language he --output_format txt --output_dir "$OUTDIR" 2>/dev/null
RESULT=$(cat "$OUTDIR/"*.txt 2>/dev/null)
# If tiny returned too few words, retry with small
WORD_COUNT=$(echo "$RESULT" | wc -w)
if [ "$MODEL" = "tiny" ] && [ "$WORD_COUNT" -le 1 ]; then
whisper "$FILE" --model small --language he --output_format txt --output_dir "$OUTDIR" 2>/dev/null
RESULT=$(cat "$OUTDIR/"*.txt 2>/dev/null)
fi
fi
echo "$RESULT"
インストール
# Whisper CLI のインストール (ローカル)
pip install openai-whisper
# 期間検出用の ffprobe
apt install ffmpeg # Linux
brew install ffmpeg # macOS
モデルは初回実行時に自動的に ~/.cache/whisper/ にダウンロードされます。
完全なユースケースフロー: 音声 → CRM → monday
オーナーが音声メッセージを送信した場合:
- 文字起こし (Whisper) — OGG をテキストに変換
- 意図の識別 — テキストを読み、何が必要かを理解
- 人物が言及された場合 (personal-crm) — CRM ボードを検索し、Last Topic を更新
- タスクが必要な場合 — monday タスク トラッカーでアイテムを作成
- 実行 — 要求されたことを実行
音声 OGG → [Whisper] → テキスト → [意図] → [CRM 更新] + [monday タスク] + [実行]
ヘブライ語固有の注意事項
- 常に
--language heを渡します — 自動検出は英語をデフォルトとすることが多いです - 名前と技術用語は音韻的に文字起こしされることがあります
smallモデルは自然なヘブライ語音声をよく処理します
既知の問題
- CPU での FP16 警告 = 予想通り、エラーではありません
- 2 秒未満のクリップは幻覚を起こす可能性があります — 再録音を依頼してください
- GPU なし = 遅い。OpenAI API は長いクリップの高速パスです (~$0.006/分)
ファイルの場所 (OpenClaw)
WhatsApp インバウンドメディア:
/path/to/openclaw/media/inbound/<uuid>.ogg
ファイルパスは各インバウンドメディア添付ファイルのシステムメタデータに含まれています。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- netanel-abergel
- ライセンス
- MIT
- 最終更新
- 2026/5/9
Source: https://github.com/netanel-abergel/pa-skills / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。