handwritten-ocr
このスキルは、スキャンした手書きPDFをWord文書に変換したい場合、または手書きOCRのウェブインターフェースを起動したい場合に使用します。トリガーフレーズには「この手書きPDFを変換して」「手書きメモを文字起こしして」「このスキャンPDFをOCR処理して」「手書きPDFからテキストを抽出して」「OCRウェブアプリを開いて」「手書きOCRを起動して」「手書きをWordに変換して」「手書き文書を読み込んで」などが含まれます。
description の原文を見る
This skill should be used when the user wants to convert a scanned handwritten PDF into a Word document, or wants to launch the handwritten OCR web interface. Trigger phrases include "convert this handwritten PDF", "transcribe my handwritten notes", "OCR this scanned PDF", "extract text from handwritten PDF", "open the OCR web app", "launch handwritten OCR", "convert handwritten to Word", or "read my handwritten document".
SKILL.md 本文
手書きOCRスキル
このスキルは、スキャンされた手書きPDFファイルをClaudeのVision APIを使用して編集可能なWord(.docx)ドキュメントに変換します。2つのモードをサポートしています:
- CLIモード — ターミナルからPDFを直接変換します。ページごとに進捗が表示されます。出力の
.docxは入力ファイルと同じディレクトリに保存されます(または指定したパスに保存されます)。 - Webアプリモード — ドラッグ&ドロップアップロード、進捗バー、ダウンロードボタン付きの完全なブラウザベースのWebインターフェースを起動します。
アプリケーションの場所
Webアプリとすべてのサポートコードは以下の場所にあります:
/Users/ranjithgonugunta/Documents/Python/claude-skills/handwritten-ocr/
スキルのスクリプトは以下の場所にあります:
~/.claude/skills/handwritten-ocr/scripts/
仮想環境
常にアプリの独立した仮想環境を使用してください:
source /Users/ranjithgonugunta/Documents/Python/claude-skills/
...
詳細情報
- 作者
- learngvrk
- ライセンス
- unknown
- 最終更新
- 2026/2/22
Source: https://github.com/learngvrk/claude-code-skills / ライセンス: unknown
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。