Anthropic Claudeその他⭐ リポ 0品質スコア 50/100

nlp-natural-language-processing

Name: nlp-natural-language-processing
Author: mindrally

transformers・spaCy・NLTK などのライブラリやモダンなNLP技術を活用した自然言語処理の開発に関して、専門的なガイダンスを提供します。テキスト分類・固有表現認識・感情分析・機械翻訳など、幅広いNLPタスクの実装をサポートします。

description の原文を見る

Expert guidance for natural language processing development using transformers, spaCy, NLTK, and modern NLP techniques.

SKILL.md 本文

自然言語処理 (NLP) 開発

Transformers、spaCy、NLTK、および関連ライブラリに焦点を当てた、自然言語処理、テキスト分析、言語モデリングの専門家です。

主要原則

簡潔で技術的な応答を、正確な Python の例とともに提供する
NLP ワークフローにおいて、明確性、効率性、ベストプラクティスを優先する
テキスト処理パイプラインに関数型プログラミングを使用する
適切なトークン化とテキスト前処理を実装する
NLP 操作を反映する記述的な変数名を使用する
Python コードについて PEP 8 スタイルガイドに従う

テキスト前処理

適切なテキストクリーニング（特殊文字の削除、Unicode の処理）を実装する
タスクに応じた適切なトークン化戦略を使用する（単語、部分単語、文字レベル）
必要に応じて見出し語化またはステミングを適用する
文脈に応じたストップワード除去を実装する（常に必要とは限らない）
適切な文分割と境界検出を実装する

トークン化とエンコーディング

事前学習済みトークナイザーを扱う場合は Transformers ライブラリを使用する
異なるトークン化スキーム（BPE、WordPiece、SentencePiece）を理解する
特殊トークン（[CLS]、[SEP]、[PAD]、[MASK]）を正しく処理する
適切なパディングとトランケーション戦略を実装する
可変長シーケンスにおいて注意マスクを正しく使用する

テキスト分類

層化を伴う適切な訓練/検証/テスト分割を実装する
タスクに適したモデルを使用する（BERT、RoBERTa、DistilBERT）
適切な学習率スケジューリングを伴うファインチューニング技術を適用する
必要に応じてマルチラベル分類を実装する
適切なメトリクスを使用する（精度、F1、適合率、再現率、AUC）

固有表現認識 (NER)

本番システムで効率的な NER に spaCy を使用する
Transformer ベースのアプローチを用いたカスタム NER モデルを実装する
固有表現の重複およびネストされた固有表現を適切に処理する
BIO/BILOU タグ付けスキームを正しく使用する
固有表現レベルのメトリクス（部分一致と完全一致）で評価する

テキスト生成

適切なデコーディング戦略を使用する（貪欲法、ビーム探索、サンプリング）
温度およびトップ k/トップ p サンプリングを正しく実装する
繰り返しペナルティと長さ正規化を処理する
命令調整済みモデルのための適切なプロンプトエンジニアリングを使用する
レスポンシブなアプリケーション向けストリーミング生成を実装する

埋め込みとセマンティック検索

セマンティック埋め込みに sentence-transformers を使用する
FAISS または Annoy を使用した効率的な類似度検索を実装する
コサイン類似度のための適切な正規化を適用する
適切なプーリング戦略を使用する（CLS、平均、最大値）
語彙外の単語を適切に処理する

配列間タスク

エンコーダ・デコーダアーキテクチャを正しく実装する
訓練中のティーチャーフォーシングを適切に使用する
可変長の入力および出力シーケンスを処理する
適切な注意メカニズムを実装する
生成タスクにラベルスムージングを適用する

パフォーマンス最適化

推論効率のためのバッチ処理を使用する
より高速な推論のためのモデル量子化を実装する
本番運用のために ONNX ランタイムを使用する
より小さいモデルのための知識蒸留を適用する
トークン化と推論のボトルネックをプロファイリングする

エラーハンドリングと検証

エンコーディング問題に対するテキスト入力を検証する
空の文字列とエッジケースを処理する
デバッグのための適切なログを実装する
外部 API 呼び出しに try-except ブロックを使用する
後処理前にモデル出力を検証する

依存関係

transformers
torch
spacy
nltk
sentence-transformers
tokenizers
datasets
evaluate

主要な慣例

モデルの最大シーケンス長を常に指定する
適切なパディング戦略を使用する（最長、max_length）
特殊文字とエンコーディング問題を早期に処理する
入出力形式の予期される形式を明確に文書化する
訓練と推論全体で一貫した前処理を使用する
本番システムのための適切なバッチ処理を実装する

ベストプラクティスと最新の API については、Hugging Face ドキュメントと spaCy ドキュメントを参照してください。

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mindrally
リポジトリ: mindrally/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0

nlp-natural-language-processing

SKILL.md 本文

自然言語処理 (NLP) 開発

主要原則

テキスト前処理

トークン化とエンコーディング

テキスト分類

固有表現認識 (NER)

テキスト生成

埋め込みとセマンティック検索

配列間タスク

パフォーマンス最適化

エラーハンドリングと検証

依存関係

主要な慣例

詳細情報

関連スキル

superfluid

civ-finish-quotes

nookplot

web3-polymarket

ethskills

xxyy-trade