Agent Skills by ALSEL
汎用音声・動画・メディア⭐ リポ 4品質スコア 71/100

whatsapp-voice

WhatsAppの音声メッセージをローカルのWhisper CLIで文字起こしします。オーナーまたはコンタクトがオーディオ/OGG形式の音声メッセージを送信した場合に使用します。Whisperによる文字起こし、CRMの更新、タスク作成を組み合わせて実行します。短いクリップはオフラインで処理し、長いクリップはOpenAI APIを利用します。ヘブライ語と英語に対応しています。

description の原文を見る

Transcribe WhatsApp voice messages using local Whisper CLI. Use when: owner or contact sends an audio/ogg voice message. Combines Whisper transcription + CRM update + task creation. Works offline for short clips, uses OpenAI API for long clips. Hebrew and English supported.

SKILL.md 本文

WhatsApp Voice — ユースケーススキル

これはユースケーススキルであり、スタンドアロン統合ではありません。以下を組み合わせています:

  • openai-whisper CLI — 文字起こし
  • personal-crm — 人物が言及された場合、コンタクトの Last Topic を更新
  • monday / task tracker — 必要に応じてタスクを保存

文字起こし戦略(期間に応じた自動選択)

オーディオの長さに基づいてモデルを選択します:

ティアモデル使用場面推定時間
1 — 高速tiny (ローカル)≤ 15 秒5-15秒
2 — バランス型small (ローカル)15-60 秒30-90秒
3 — 高精度OpenAI Whisper API> 60 秒2-5秒

自動選択スクリプト

#!/bin/bash
FILE="$1"

# Get duration
DURATION=$(ffprobe -v quiet -show_entries format=duration -of csv=p=0 "$FILE" 2>/dev/null | cut -d. -f1)
DURATION=${DURATION:-0}

if [ "$DURATION" -le 15 ]; then
  MODEL="tiny"; TIMEOUT=30
elif [ "$DURATION" -le 60 ]; then
  MODEL="small"; TIMEOUT=120
else
  USE_API=true
fi

if [ "${USE_API:-false}" = true ]; then
  RESULT=$(curl -s https://api.openai.com/v1/audio/transcriptions \
    -H "Authorization: Bearer $OPENAI_API_KEY" \
    -F file="@$FILE" \
    -F model="whisper-1" \
    -F language="he" \
    | jq -r '.text')
else
  OUTDIR="/tmp/whisper-$$"
  mkdir -p "$OUTDIR"
  whisper "$FILE" --model "$MODEL" --language he --output_format txt --output_dir "$OUTDIR" 2>/dev/null
  RESULT=$(cat "$OUTDIR/"*.txt 2>/dev/null)

  # If tiny returned too few words, retry with small
  WORD_COUNT=$(echo "$RESULT" | wc -w)
  if [ "$MODEL" = "tiny" ] && [ "$WORD_COUNT" -le 1 ]; then
    whisper "$FILE" --model small --language he --output_format txt --output_dir "$OUTDIR" 2>/dev/null
    RESULT=$(cat "$OUTDIR/"*.txt 2>/dev/null)
  fi
fi

echo "$RESULT"

インストール

# Whisper CLI のインストール (ローカル)
pip install openai-whisper

# 期間検出用の ffprobe
apt install ffmpeg   # Linux
brew install ffmpeg  # macOS

モデルは初回実行時に自動的に ~/.cache/whisper/ にダウンロードされます。


完全なユースケースフロー: 音声 → CRM → monday

オーナーが音声メッセージを送信した場合:

  1. 文字起こし (Whisper) — OGG をテキストに変換
  2. 意図の識別 — テキストを読み、何が必要かを理解
  3. 人物が言及された場合 (personal-crm) — CRM ボードを検索し、Last Topic を更新
  4. タスクが必要な場合 — monday タスク トラッカーでアイテムを作成
  5. 実行 — 要求されたことを実行
音声 OGG → [Whisper] → テキスト → [意図] → [CRM 更新] + [monday タスク] + [実行]

ヘブライ語固有の注意事項

  • 常に --language he を渡します — 自動検出は英語をデフォルトとすることが多いです
  • 名前と技術用語は音韻的に文字起こしされることがあります
  • small モデルは自然なヘブライ語音声をよく処理します

既知の問題

  • CPU での FP16 警告 = 予想通り、エラーではありません
  • 2 秒未満のクリップは幻覚を起こす可能性があります — 再録音を依頼してください
  • GPU なし = 遅い。OpenAI API は長いクリップの高速パスです (~$0.006/分)

ファイルの場所 (OpenClaw)

WhatsApp インバウンドメディア:

/path/to/openclaw/media/inbound/<uuid>.ogg

ファイルパスは各インバウンドメディア添付ファイルのシステムメタデータに含まれています。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
netanel-abergel
リポジトリ
netanel-abergel/pa-skills
ライセンス
MIT
最終更新
2026/5/9

Source: https://github.com/netanel-abergel/pa-skills / ライセンス: MIT

関連スキル

汎用音声・動画・メディア⭐ リポ 1,982

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 1,982

best-youtube-video-editor

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31
汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer
OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai
汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: netanel-abergel · netanel-abergel/pa-skills · ライセンス: MIT