nlp-natural-language-processing
transformers・spaCy・NLTK などのライブラリやモダンなNLP技術を活用した自然言語処理の開発に関して、専門的なガイダンスを提供します。テキスト分類・固有表現認識・感情分析・機械翻訳など、幅広いNLPタスクの実装をサポートします。
description の原文を見る
Expert guidance for natural language processing development using transformers, spaCy, NLTK, and modern NLP techniques.
SKILL.md 本文
自然言語処理 (NLP) 開発
Transformers、spaCy、NLTK、および関連ライブラリに焦点を当てた、自然言語処理、テキスト分析、言語モデリングの専門家です。
主要原則
- 簡潔で技術的な応答を、正確な Python の例とともに提供する
- NLP ワークフローにおいて、明確性、効率性、ベストプラクティスを優先する
- テキスト処理パイプラインに関数型プログラミングを使用する
- 適切なトークン化とテキスト前処理を実装する
- NLP 操作を反映する記述的な変数名を使用する
- Python コードについて PEP 8 スタイルガイドに従う
テキスト前処理
- 適切なテキストクリーニング(特殊文字の削除、Unicode の処理)を実装する
- タスクに応じた適切なトークン化戦略を使用する(単語、部分単語、文字レベル)
- 必要に応じて見出し語化またはステミングを適用する
- 文脈に応じたストップワード除去を実装する(常に必要とは限らない)
- 適切な文分割と境界検出を実装する
トークン化とエンコーディング
- 事前学習済みトークナイザーを扱う場合は Transformers ライブラリを使用する
- 異なるトークン化スキーム(BPE、WordPiece、SentencePiece)を理解する
- 特殊トークン([CLS]、[SEP]、[PAD]、[MASK])を正しく処理する
- 適切なパディングとトランケーション戦略を実装する
- 可変長シーケンスにおいて注意マスクを正しく使用する
テキスト分類
- 層化を伴う適切な訓練/検証/テスト分割を実装する
- タスクに適したモデルを使用する(BERT、RoBERTa、DistilBERT)
- 適切な学習率スケジューリングを伴うファインチューニング技術を適用する
- 必要に応じてマルチラベル分類を実装する
- 適切なメトリクスを使用する(精度、F1、適合率、再現率、AUC)
固有表現認識 (NER)
- 本番システムで効率的な NER に spaCy を使用する
- Transformer ベースのアプローチを用いたカスタム NER モデルを実装する
- 固有表現の重複およびネストされた固有表現を適切に処理する
- BIO/BILOU タグ付けスキームを正しく使用する
- 固有表現レベルのメトリクス(部分一致と完全一致)で評価する
テキスト生成
- 適切なデコーディング戦略を使用する(貪欲法、ビーム探索、サンプリング)
- 温度およびトップ k/トップ p サンプリングを正しく実装する
- 繰り返しペナルティと長さ正規化を処理する
- 命令調整済みモデルのための適切なプロンプトエンジニアリングを使用する
- レスポンシブなアプリケーション向けストリーミング生成を実装する
埋め込みとセマンティック検索
- セマンティック埋め込みに sentence-transformers を使用する
- FAISS または Annoy を使用した効率的な類似度検索を実装する
- コサイン類似度のための適切な正規化を適用する
- 適切なプーリング戦略を使用する(CLS、平均、最大値)
- 語彙外の単語を適切に処理する
配列間タスク
- エンコーダ・デコーダアーキテクチャを正しく実装する
- 訓練中のティーチャーフォーシングを適切に使用する
- 可変長の入力および出力シーケンスを処理する
- 適切な注意メカニズムを実装する
- 生成タスクにラベルスムージングを適用する
パフォーマンス最適化
- 推論効率のためのバッチ処理を使用する
- より高速な推論のためのモデル量子化を実装する
- 本番運用のために ONNX ランタイムを使用する
- より小さいモデルのための知識蒸留を適用する
- トークン化と推論のボトルネックをプロファイリングする
エラーハンドリングと検証
- エンコーディング問題に対するテキスト入力を検証する
- 空の文字列とエッジケースを処理する
- デバッグのための適切なログを実装する
- 外部 API 呼び出しに try-except ブロックを使用する
- 後処理前にモデル出力を検証する
依存関係
- transformers
- torch
- spacy
- nltk
- sentence-transformers
- tokenizers
- datasets
- evaluate
主要な慣例
- モデルの最大シーケンス長を常に指定する
- 適切なパディング戦略を使用する(最長、max_length)
- 特殊文字とエンコーディング問題を早期に処理する
- 入出力形式の予期される形式を明確に文書化する
- 訓練と推論全体で一貫した前処理を使用する
- 本番システムのための適切なバッチ処理を実装する
ベストプラクティスと最新の API については、Hugging Face ドキュメントと spaCy ドキュメントを参照してください。
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
superfluid
Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード:Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool(member/distributor)、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper
civ-finish-quotes
実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。
nookplot
Base(Ethereum L2)上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。
web3-polymarket
Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。
ethskills
Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格(ERC-20、ERC-721、ERC-4626など)、Layer 2ネットワーク(Base、Arbitrum、Optimism、zkSync、Polygon)、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化(EIPライフサイクル、フォーク追跡、今後の変更予定)といったトピックを含みます。
xxyy-trade
このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。