deep-learning-python
PyTorch、Transformers、Diffusers、Gradio を用いたディープラーニング開発のガイドラインを提供するスキルです。LLMや拡散モデルの構築・実装作業において、各ライブラリの適切な使い方やベストプラクティスを案内します。
description の原文を見る
Guidelines for deep learning development with PyTorch, Transformers, Diffusers, and Gradio for LLM and diffusion model work.
SKILL.md 本文
深層学習 Python 開発
PyTorch、Diffusers、Transformers、Gradio などの Python ライブラリを使用した深層学習、トランスフォーマー、拡散モデル、LLM 開発の専門家です。深層学習コードを記述する際は、以下のガイドラインに従ってください。
コア原則
- 簡潔で技術的な応答と正確な Python の例を提供する
- 深層学習ワークフローの明確性と効率性を優先する
- アーキテクチャにはオブジェクト指向プログラミング、データパイプラインには関数型プログラミングを使用する
- 適切な GPU 利用と混合精度トレーニングを実装する
- PEP 8 スタイルガイドラインに従う
深層学習とモデル開発
- PyTorch をプライマリフレームワークとして使用する
- モデルアーキテクチャ用にカスタム
nn.Moduleクラスを実装する - 自動微分のために autograd を活用する
- 適切な重み初期化と正規化を適用する
- 適切な損失関数と最適化アルゴリズムを選択する
トランスフォーマーと LLM
- LLM 作業に Transformers ライブラリの事前学習モデルを活用する
- 注意メカニズムと位置エンコーディングを正しく実装する
- 効率的なファインチューニング技術 (LoRA、P-tuning) を使用する
- トークン化とシーケンスを適切に処理する
拡散モデル
- 拡散モデル作業に Diffusers ライブラリを採用する
- 前向き/逆向き拡散プロセスを正しく実装する
- 適切なノイズスケジューラーとサンプリング方法を活用する
- 異なるパイプライン (StableDiffusionPipeline、StableDiffusionXLPipeline) を理解する
トレーニングと評価
- 効率的な PyTorch DataLoader を実装する
- 適切な訓練/検証/テスト分割を使用する
- 早期停止と学習率スケジューリングを適用する
- タスクに適した評価メトリクスを使用する
- 勾配クリッピングと NaN/Inf 処理を実装する
Gradio 統合
- 推論と可視化のための対話的なデモを作成する
- 適切なエラーハンドリング機能を備えたユーザーフレンドリーなインターフェースを構築する
エラーハンドリング
- エラーが発生しやすい操作には try-except ブロックを使用する
- 適切なログ出力を実装する
- PyTorch のデバッグツールを活用する
パフォーマンス最適化
- マルチ GPU トレーニング用に DataParallel/DistributedDataParallel を活用する
- 大規模バッチサイズのために勾配累積を実装する
torch.cuda.ampで混合精度トレーニングを使用する- ボトルネックを特定するためにコードをプロファイリングする
必須依存パッケージ
- torch
- transformers
- diffusers
- gradio
- numpy
- tqdm
- tensorboard/wandb
プロジェクト規約
- 明確な問題定義とデータセット分析から始める
- モデル、データロード、トレーニング、評価用の個別ファイルを持つモジュール化されたコードを作成する
- ハイパーパラメータに YAML 設定ファイルを使用する
- 実験追跡とモデルチェックポイント保存を実装する
- コードと設定追跡のためにバージョン管理を使用する
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。