liteparse
ユーザーがPDF、DOCX、PPTX、XLSX、画像などの非構造化ファイルをクラウドに依存せずローカルで解析・変換・テキスト抽出したい場合に使用するスキルです。複数フォーマットのドキュメント変換や空間的なテキスト抽出にも対応しています。
description の原文を見る
Use this skill when the user asks to parse, perform multi-format document conversion or spatially extract text from an unstructured file (PDF, DOCX, PPTX, XLSX, images, etc.) locally without cloud dependencies.
SKILL.md 本文
LiteParse スキル
LiteParse を使用して、非構造化ドキュメント (PDF、DOCX、PPTX、XLSX、画像など) をローカルで解析します。高速、軽量、クラウド依存やLLMは不要です。
初期セットアップ
このスキルが呼び出されたとき、以下の応答をします:
LiteParse を使用してファイルをローカルで解析する準備ができました。開始する前に、以下を確認してください:
- `@llamaindex/liteparse` がグローバルにインストールされている (`npm i -g @llamaindex/liteparse`)
- ターミナルで `lit` CLIコマンドが利用可能である
両方が設定されていれば、以下をお知らせください:
1. 解析するファイル(PDF、DOCX、PPTX、XLSX、画像など)
2. 特定のオプション:出力形式(json/text)、ページ範囲、OCR設定、DPI など
3. 解析されたコンテンツで何をしたいか
適切な `lit` CLIコマンド、または TypeScript スクリプトを生成します。承認後、結果をレポートします。
その後、ユーザーの入力を待ちます。
ステップ 0 — LiteParse のインストール(必要な場合)
liteparse がまだインストールされていない場合、グローバルにインストールします:
npm i -g @llamaindex/liteparse
インストール確認:
lit --version
Office ドキュメント対応(DOCX、PPTX、XLSX)には LibreOffice が必要です:
# macOS
brew install --cask libreoffice
# Ubuntu/Debian
apt-get install libreoffice
画像解析には ImageMagick が必要です:
# macOS
brew install imagemagick
# Ubuntu/Debian
apt-get install imagemagick
ステップ 1 — CLI コマンドまたはスクリプトの生成
単一ファイルの解析
# 基本的なテキスト抽出
lit parse document.pdf
# JSON 出力をファイルに保存
lit parse document.pdf --format json -o output.json
# 特定のページ範囲
lit parse document.pdf --target-pages "1-5,10,15-20"
# OCR を無効化(高速化、テキストのみの PDF)
lit parse document.pdf --no-ocr
# 外部 HTTP OCR サーバーを使用(精度向上)
lit parse document.pdf --ocr-server-url http://localhost:8828/ocr
# より高い DPI で品質向上
lit parse document.pdf --dpi 300
ディレクトリのバッチ解析
lit batch-parse ./input-directory ./output-directory
# PDF のみ処理、再帰的に
lit batch-parse ./input ./output --extension .pdf --recursive
ページスクリーンショットの生成
スクリーンショットは、ビジュアルレイアウトを見る必要がある LLM エージェントに便利です。
# すべてのページ
lit screenshot document.pdf -o ./screenshots
# 特定のページ
lit screenshot document.pdf --pages "1,3,5" -o ./screenshots
# 高 DPI PNG
lit screenshot document.pdf --dpi 300 --format png -o ./screenshots
# ページ範囲
lit screenshot document.pdf --pages "1-10" -o ./screenshots
ステップ 3 — キーオプション リファレンス
OCR オプション
| オプション | 説明 |
|---|---|
| (デフォルト) | Tesseract.js — セットアップ不要、組み込み |
--ocr-language fra | OCR 言語を設定(ISO コード) |
--ocr-server-url <url> | 外部 HTTP OCR サーバーを使用(EasyOCR、PaddleOCR、カスタム) |
--no-ocr | OCR を完全に無効化 |
出力オプション
| オプション | 説明 |
|---|---|
--format json | バウンディングボックス付きの構造化 JSON |
--format text | プレーンテキスト(デフォルト) |
-o <file> | 出力をファイルに保存 |
パフォーマンス / 品質オプション
| オプション | 説明 |
|---|---|
--dpi <n> | レンダリング DPI(デフォルト:150、高品質の場合 300) |
--max-pages <n> | 解析するページ数を制限 |
--target-pages <pages> | 特定のページを解析(例:"1-5,10") |
--no-precise-bbox | 正確なバウンディングボックスを無効化(高速化) |
--skip-diagonal-text | 回転/斜めのテキストを無視 |
--preserve-small-text | 削除される非常に小さいテキストを保持 |
ステップ 4 — 設定ファイルの使用
一貫したオプションで繰り返し使用する場合は、liteparse.config.json を生成します:
{
"ocrLanguage": "en",
"ocrEnabled": true,
"maxPages": 1000,
"dpi": 150,
"outputFormat": "json",
"preciseBoundingBox": true,
"skipDiagonalText": false,
"preserveVerySmallText": false
}
HTTP OCR サーバーの場合:
{
"ocrServerUrl": "http://localhost:8828/ocr",
"ocrLanguage": "en",
"outputFormat": "json"
}
以下のように使用します:
lit parse document.pdf --config liteparse.config.json
ステップ 5 — HTTP OCR サーバー API(高度な使用方法)
ユーザーがカスタム OCR バックエンドをプラグインしたい場合、サーバーは以下を実装する必要があります:
- エンドポイント:
POST /ocr - 受け入れる:
file(マルチパート)およびlanguage(文字列)パラメータ - 返す:
{
"results": [
{ "text": "Hello", "bbox": [x1, y1, x2, y2], "confidence": 0.98 }
]
}
EasyOCR および PaddleOCR 向けの既製ラッパーが LiteParse リポジトリに存在します。
サポートされている入力形式
| カテゴリ | 形式 |
|---|---|
.pdf | |
| Word | .doc, .docx, .docm, .odt, .rtf |
| PowerPoint | .ppt, .pptx, .pptm, .odp |
| スプレッドシート | .xls, .xlsx, .xlsm, .ods, .csv, .tsv |
| 画像 | .jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg |
Office ドキュメントには LibreOffice が必要です。画像には ImageMagick が必要です。LiteParse はこれらの形式を PDF に自動変換してから解析します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- run-llama
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/run-llama/llamaparse-agent-skills / ライセンス: MIT
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。