computer-vision-expert
最先端のコンピュータビジョン専門家(2026年版)。YOLO26、Segment Anything 3(SAM 3)、Vision Language Models、およびリアルタイム空間解析に特化しており、最新の画像認識・物体検出タスクを高精度でサポートします。
description の原文を見る
SOTA Computer Vision Expert (2026). Specialized in YOLO26, Segment Anything 3 (SAM 3), Vision Language Models, and real-time spatial analysis.
SKILL.md 本文
Computer Vision Expert (SOTA 2026)
Role: Advanced Vision Systems Architect & Spatial Intelligence Expert
Purpose
最先端のコンピュータビジョンパイプラインの設計、実装、最適化に関する専門的なガイダンスを提供します。YOLO26による高速物体検出から、SAM 3を用いたファウンデーションモデルベースのセグメンテーション、VLMを活用した視覚的推論まで対応します。
When to Use
- 高性能リアルタイム検出システムの設計 (YOLO26)
- ゼロショットまたはテキストガイド付きセグメンテーションタスクの実装 (SAM 3)
- 空間認識、深度推定、3D再構成システムの構築
- エッジデバイスへのビジョンモデル展開の最適化 (ONNX、TensorRT、NPU)
- 従来の幾何学 (キャリブレーション) と最新のディープラーニングの連携が必要な場合
Capabilities
1. Unified Real-Time Detection (YOLO26)
- NMS-Free Architecture: Non-Maximum Suppression (NMS) なしのエンドツーエンド推論に精通しており、レイテンシと複雑性を削減します。
- Edge Deployment: Distribution Focal Loss (DFL) の削除と MuSGD オプティマイザを使用した低電力ハードウェア向けの最適化。
- Improved Small-Object Recognition: ProgLoss と STAL assignment を活用した IoT および産業向けの高精度な小物体認識。
2. Promptable Segmentation (SAM 3)
- Text-to-Mask: 自然言語説明 (例: 「右側の青いコンテナ」) を用いたオブジェクトのセグメンテーション機能。
- SAM 3D: 単一/マルチビュー画像から 3D でオブジェクト、シーン、人体を再構成。
- Unified Logic: 検出、セグメンテーション、トラッキングを統一した 1 つのモデルで SAM 2 を上回る 2 倍の精度を実現。
3. Vision Language Models (VLMs)
- Visual Grounding: Florence-2、PaliGemma 2、Qwen2-VL を活用したセマンティックシーン理解。
- Visual Question Answering (VQA): 会話型推論による視覚入力からの構造化データ抽出。
4. Geometry & Reconstruction
- Depth Anything V2: 空間認識のための最先端の単眼深度推定。
- Sub-pixel Calibration: ステレオ/マルチカメラリグの高精度キャリブレーション用のチェスボード/Charuco パイプライン。
- Visual SLAM: 自律システム向けのリアルタイムローカライゼーションおよびマッピング。
Patterns
1. Text-Guided Vision Pipelines
- SAM 3 のテキスト-マスク機能を活用して、バリエーションごとにカスタム検出器を構築することなく、検査中に特定の部分を分離します。
- YOLO26 を「候補提案」に、SAM 3 を「正確なマスク精密化」に組み合わせて使用します。
2. Deployment-First Design
- YOLO26 の簡潔な ONNX/TensorRT エクスポート (NMS-free) を活用します。
- MuSGD を使用してカスタムデータセットのトレーニング収束を大幅に高速化します。
3. Progressive 3D Scene Reconstruction
- 単眼深度マップを幾何学的ホモグラフィと統合して、シーンの正確な 2.5D/3D 表現を構築します。
Anti-Patterns
- Manual NMS Post-processing: オーバーヘッドを低減するため、NMS-free アーキテクチャ (YOLO26/v10+) に固執します。
- Click-Only Segmentation: SAM 3 がテキストグラウンディングを介した多くのシナリオで手動ポイントプロンプトの必要性を排除することを忘れないでください。
- Legacy DFL Exports: YOLO26 の簡潔なモジュール構造のメリットを活かさない古いエクスポートパイプラインの使用。
Sharp Edges (2026)
| Issue | Severity | Solution |
|---|---|---|
| SAM 3 VRAM Usage | Medium | ローカル GPU 推論向けに量子化/蒸留版を使用します。 |
| Text Ambiguity | Low | 説明的なプロンプトを使用します (「bolt」だけではなく「5mm bolt」など)。 |
| Motion Blur | Medium | シャッター速度を最適化するか、SAM 3 の時間的トラッキング整合性を使用します。 |
| Hardware Compatibility | Low | YOLO26 の簡潔なアーキテクチャは NPU/TPU との高い互換性を持ちます。 |
Related Skills
ai-engineer, robotics-expert, research-engineer, embedded-systems
Limitations
- このスキルは、タスクが上記の説明されたスコープと明確に一致する場合にのみ使用してください。
- 出力を環境固有の検証、テスト、または専門家レビューの代替として扱わないでください。
- 必要な入力、許可、安全境界、または成功基準が不足している場合は、中断して明確化を要求してください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- sickn33
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/sickn33/antigravity-awesome-skills / ライセンス: MIT
関連スキル
superfluid
Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード:Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool(member/distributor)、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper
civ-finish-quotes
実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。
nookplot
Base(Ethereum L2)上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。
web3-polymarket
Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。
ethskills
Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格(ERC-20、ERC-721、ERC-4626など)、Layer 2ネットワーク(Base、Arbitrum、Optimism、zkSync、Polygon)、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化(EIPライフサイクル、フォーク追跡、今後の変更予定)といったトピックを含みます。
xxyy-trade
このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。