depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。
description の原文を見る
Real-time depth map privacy transforms using Depth Anything v2 (CoreML + PyTorch)
SKILL.md 本文
深度推定(プライバシー)
Depth Anything v2を使用したリアルタイム単眼深度推定。カメラフィードを色付けされた深度マップで変換します。近いオブジェクトは暖色、遠いオブジェクトは寒色で表示されます。
プライバシーモードとして使用する場合、depth_onlyブレンドモードはシーンを完全に匿名化しながら空間レイアウトとアクティビティを保持し、顔認証を明かさないセキュリティ監視を実現します。
ハードウェアバックエンド
| プラットフォーム | バックエンド | ランタイム | モデル |
|---|---|---|---|
| macOS | CoreML | Apple Neural Engine | apple/coreml-depth-anything-v2-small (.mlpackage) |
| Linux/Windows | PyTorch | CUDA / CPU | depth-anything/Depth-Anything-V2-Small (.pth) |
macOSでは、CoreMLはNeural Engineで動作し、GPUを他のタスク用に解放します。モデルはHuggingFaceから自動ダウンロードされ、~/.aegis-ai/models/feature-extraction/に保存されます。
機能
- プライバシー匿名化 — 深度のみモードはすべての視覚的識別情報を隠します
- ライブカメラフィードへの深度オーバーレイ
- 3Dシーン理解 — シーンの空間レイアウト
- CoreML高速化 — Apple Silicon上のNeural Engine(MPS比3~5倍高速)
インターフェース:TransformSkillBase
このスキルはTransformSkillBaseインターフェースを実装しています。新しいプライバシースキルは、TransformSkillBaseをサブクラス化し、2つのメソッドを実装することで作成できます:
from transform_base import TransformSkillBase
class MyPrivacySkill(TransformSkillBase):
def load_model(self, config):
# モデルをロードして、{"model": "...", "device": "..."}を返す
...
def transform_frame(self, image, metadata):
# BGRイメージを変換してBGRイメージを返す
...
プロトコル
Aegis → スキル(標準入力)
{"event": "frame", "frame_id": "cam1_1710001", "camera_id": "front_door", "frame_path": "/tmp/frame.jpg", "timestamp": "..."}
{"command": "config-update", "config": {"opacity": 0.8, "blend_mode": "overlay"}}
{"command": "stop"}
スキル → Aegis(標準出力)
{"event": "ready", "model": "coreml-DepthAnythingV2SmallF16", "device": "neural_engine", "backend": "coreml"}
{"event": "transform", "frame_id": "cam1_1710001", "camera_id": "front_door", "transform_data": "<base64 JPEG>"}
{"event": "perf_stats", "total_frames": 50, "timings_ms": {"transform": {"avg": 12.5, ...}}}
セットアップ
python3 -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- SharpAI
- リポジトリ
- SharpAI/DeepCamera
- ライセンス
- MIT
- 最終更新
- 2026/4/21
Source: https://github.com/SharpAI/DeepCamera / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
cli-anything-musescore
楽譜記譜用のCLI — トランスポーズ、PDF/音声/MIDI形式でのエクスポート、パート抽出、楽器管理に対応