axiom-vision
画像分析・姿勢検出・人物セグメンテーション・被写体の切り抜き・テキスト認識・バーコードスキャンなど、あらゆるコンピュータービジョン機能を実装する際に使用します。視覚的な認識・解析が絡むタスクすべてがトリガー条件となります。
description の原文を見る
Use when implementing ANY computer vision feature — image analysis, pose detection, person segmentation, subject lifting, text recognition, barcode scanning.
SKILL.md 本文
コンピュータビジョン
Vision フレームワークを使用するコンピュータビジョン作業には、このスキルを必ず使用してください。
クイックリファレンス
| 症状・タスク | 参照先 |
|---|---|
| 被写体のセグメンテーション、リフティング | skills/vision-framework.md を参照 |
| 手・体のポーズ検出 | skills/vision-framework.md を参照 |
| テキスト認識(OCR) | skills/vision-framework.md を参照 |
| バーコード・QRコード検出 | skills/vision-framework.md を参照 |
| ドキュメントスキャン | skills/vision-framework.md を参照 |
| DataScannerViewController | skills/vision-framework.md を参照 |
| 構造化ドキュメント抽出(iOS 26+) | skills/vision-framework.md を参照 |
| 手を除いたオブジェクトの分離 | skills/vision-framework.md を参照 |
| Vision フレームワーク API リファレンス | skills/vision-ref.md を参照 |
| Visual Intelligence 統合(iOS 26+) | skills/vision-ref.md を参照 |
| 被写体が検出されない | skills/vision-diag.md を参照 |
| 手・体のポーズランドマークが見つからない | skills/vision-diag.md を参照 |
| 信頼度スコアが低い | skills/vision-diag.md を参照 |
| 処理中にUIがフリーズする | skills/vision-diag.md を参照 |
| 座標変換のバグ | skills/vision-diag.md を参照 |
| テキストが認識されない・文字が間違っている | skills/vision-diag.md を参照 |
| バーコードが検出されない | skills/vision-diag.md を参照 |
| DataScanner が空白・アイテムがない | skills/vision-diag.md を参照 |
| ドキュメント端が検出されない | skills/vision-diag.md を参照 |
デシジョンツリー
digraph vision {
start [label="Computer vision task" shape=ellipse];
what [label="What do you need?" shape=diamond];
start -> what;
what -> "skills/vision-framework.md" [label="implement feature"];
what -> "skills/vision-ref.md" [label="API reference"];
what -> "skills/vision-ref.md" [label="Visual Intelligence"];
what -> "skills/vision-diag.md" [label="something broken"];
}
- ポーズ検出、セグメンテーション、OCR、バーコード、ドキュメント、ライブスキャンを実装する? →
skills/vision-framework.md - Visual Intelligence システム統合(カメラ機能、iOS 26+)? →
skills/vision-ref.md(Visual Intelligence セクション) - API リファレンス・コード例が必要? →
skills/vision-ref.md - 問題のデバッグ(検出失敗、信頼度、座標)? →
skills/vision-diag.md
重要なパターン
実装(skills/vision-framework.md):
- 適切な Vision API を選択するためのデシジョンツリー
- VisionKit を使用した被写体セグメンテーション
- 手を除きながらオブジェクトを分離する(複数の API を組み合わせる)
- 手・体のポーズ検出(21/18 ランドマーク)
- テキスト認識(高速モード vs 高精度モード)
- シンボロジー選択を使用したバーコード検出
- ドキュメントスキャンと構造化抽出(iOS 26+)
- DataScannerViewController を使用したライブスキャン
- CoreImage HDR 合成
診断(skills/vision-diag.md):
- 被写体検出失敗(フレーム端、照明)
- ランドマークトラッキングの問題(信頼度閾値)
- パフォーマンス最適化(フレームスキップ、ダウンスケーリング)
- 座標変換(左下原点 vs 左上原点)
- テキスト認識失敗(言語、コントラスト)
- バーコード検出の問題(シンボロジー、サイズ、グレア)
- DataScanner トラブルシューティング(利用可能性、データタイプ)
反合理化
| 考え方 | 現実 |
|---|---|
| 「Vision フレームワークはただのリクエスト・ハンドラーパターン」 | Vision には座標変換、信頼度閾値、パフォーマンスの落とし穴がある。vision-framework.md でカバーしている。 |
| 「スキルなしでテキスト認識を処理する」 | VNRecognizeTextRequest は高速/高精度モードと言語固有の設定がある。vision-framework.md にパターンがある。 |
| 「被写体セグメンテーションは簡単」 | インスタンスマスクには HDR 合成と手除外パターンがある。vision-framework.md は複雑なシナリオをカバーしている。 |
| 「Visual Intelligence は単なるカメラ API」 | Visual Intelligence はシステムレベルの機能で、IntentValueQuery と SemanticContentDescriptor が必要。vision-ref.md に統合セクションがある。 |
| 「メインスレッドで処理するだけ」 | Vision は古いデバイスで UI をブロックする。iPhone 12 のユーザーはアプリがフリーズします。バックグラウンドキューの追加に 15 分。 |
使用例
ユーザー: 「画像内の手のポーズを検出するには?」
→ skills/vision-framework.md を参照
ユーザー: 「被写体を分離するが、ユーザーの手は除外する」
→ skills/vision-framework.md を参照
ユーザー: 「画像からテキストを読むには?」
→ skills/vision-framework.md を参照
ユーザー: 「カメラで QR コードをスキャンする」
→ skills/vision-framework.md を参照
ユーザー: 「被写体検出が機能していない」
→ skills/vision-diag.md を参照
ユーザー: 「テキスト認識で間違った文字が返される」
→ skills/vision-diag.md を参照
ユーザー: 「VNDetectHumanBodyPoseRequest の例を示して」
→ skills/vision-ref.md を参照
ユーザー: 「アプリを Visual Intelligence と連携させるには?」
→ skills/vision-ref.md を参照
ユーザー: 「RecognizeDocumentsRequest API リファレンス」
→ skills/vision-ref.md を参照
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- charleswiltgen
- リポジトリ
- charleswiltgen/axiom
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/charleswiltgen/axiom / ライセンス: MIT
関連スキル
superfluid
Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード:Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool(member/distributor)、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper
civ-finish-quotes
実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。
nookplot
Base(Ethereum L2)上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。
web3-polymarket
Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。
ethskills
Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格(ERC-20、ERC-721、ERC-4626など)、Layer 2ネットワーク(Base、Arbitrum、Optimism、zkSync、Polygon)、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化(EIPライフサイクル、フォーク追跡、今後の変更予定)といったトピックを含みます。
xxyy-trade
このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。