Agent Skills by ALSEL
Anthropic Claudeその他⭐ リポ 0品質スコア 50/100

sentence-transformers

文章・テキスト・画像の埋め込み生成に特化した最先端フレームワークで、5,000以上の事前学習済みモデルを提供し、意味的類似度の計算・クラスタリング・検索などのタスクに対応します。多言語・ドメイン特化・マルチモーダルモデルもサポートしており、RAGやセマンティック検索、類似度タスク向けの埋め込み生成が必要な場面で活用できます。本番環境での埋め込み生成に最適です。

description の原文を見る

Framework for state-of-the-art sentence, text, and image embeddings. Provides 5000+ pre-trained models for semantic similarity, clustering, and retrieval. Supports multilingual, domain-specific, and multimodal models. Use for generating embeddings for RAG, semantic search, or similarity tasks. Best for production embedding generation.

SKILL.md 本文

Sentence Transformers - 最先端の埋め込み

Transformers を使用した文およびテキスト埋め込みの Python フレームワーク。

Sentence Transformers の使用時期

使用する場合:

  • RAG 用の高品質な埋め込みが必要
  • 意味的類似度と検索
  • テキストのクラスタリングと分類
  • 多言語埋め込み (100+ 言語)
  • ローカルで埋め込みを実行 (API なし)
  • OpenAI 埋め込みの費用効果的な代替案

メトリクス:

  • GitHub スター 15,700+
  • 事前学習済みモデル 5,000+
  • 100+ 言語対応
  • PyTorch/Transformers ベース

代わりに使用する選択肢:

  • OpenAI Embeddings: API ベースで最高品質が必要な場合
  • Instructor: タスク固有の指示が必要な場合
  • Cohere Embed: マネージドサービス

クイックスタート

インストール

pip install sentence-transformers

基本的な使い方

from sentence_transformers import SentenceTransformer

# モデルをロード
model = SentenceTransformer('all-MiniLM-L6-v2')

# 埋め込みを生成
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector"
]

embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

# コサイン類似度
from sentence_transformers.util import cos_sim
similarity = cos_sim(embeddings[0], embeddings[1])
print(f"Similarity: {similarity.item():.4f}")

人気のモデル

汎用

# 高速で良好な品質 (384 次元)
model = SentenceTransformer('all-MiniLM-L6-v2')

# より高い品質 (768 次元)
model = SentenceTransformer('all-mpnet-base-v2')

# 最高品質 (1024 次元、遅い)
model = SentenceTransformer('all-roberta-large-v1')

多言語

# 50+ 言語
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 100+ 言語
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

ドメイン特化型

# 法律ドメイン
model = SentenceTransformer('nlpaueb/legal-bert-base-uncased')

# 科学論文
model = SentenceTransformer('allenai/specter')

# コード
model = SentenceTransformer('microsoft/codebert-base')

意味的検索

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')

# コーパス
corpus = [
    "Python is a programming language",
    "Machine learning uses algorithms",
    "Neural networks are powerful"
]

# コーパスをエンコード
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# クエリ
query = "What is Python?"
query_embedding = model.encode(query, convert_to_tensor=True)

# 最も類似したものを検索
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)
print(hits)

類似度計算

# コサイン類似度
similarity = util.cos_sim(embedding1, embedding2)

# ドット積
similarity = util.dot_score(embedding1, embedding2)

# ペアワイズコサイン類似度
similarities = util.cos_sim(embeddings, embeddings)

バッチエンコーディング

# 効率的なバッチ処理
sentences = ["sentence 1", "sentence 2", ...] * 1000

embeddings = model.encode(
    sentences,
    batch_size=32,
    show_progress_bar=True,
    convert_to_tensor=False  # または PyTorch テンソルの場合は True
)

ファインチューニング

from sentence_transformers import InputExample, losses
from torch.utils.data import DataLoader

# 学習データ
train_examples = [
    InputExample(texts=['sentence 1', 'sentence 2'], label=0.8),
    InputExample(texts=['sentence 3', 'sentence 4'], label=0.3),
]

train_dataloader = DataLoader(train_examples, batch_size=16)

# 損失関数
train_loss = losses.CosineSimilarityLoss(model)

# 学習
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=10,
    warmup_steps=100
)

# 保存
model.save('my-finetuned-model')

LangChain 統合

from langchain_community.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

# ベクトルストアで使用
from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

LlamaIndex 統合

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

from llama_index.core import Settings
Settings.embed_model = embed_model

# インデックスで使用
index = VectorStoreIndex.from_documents(documents)

モデル選択ガイド

モデル次元速度品質ユースケース
all-MiniLM-L6-v2384高速良好汎用、プロトタイピング
all-mpnet-base-v2768中程度より高い本番環境 RAG
all-roberta-large-v11024遅い最高高精度が必要な場合
paraphrase-multilingual768中程度良好多言語

ベストプラクティス

  1. all-MiniLM-L6-v2 から開始 - 良好なベースライン
  2. 埋め込みを正規化 - コサイン類似度に最適
  3. GPU が利用可能な場合は使用 - エンコーディングが 10 倍高速
  4. バッチエンコーディング - より効率的
  5. 埋め込みをキャッシュ - 再計算は高コスト
  6. ドメイン用にファインチューン - 品質を向上
  7. 異なるモデルをテスト - タスクによって品質が異なる
  8. メモリを監視 - 大きなモデルはより多くの RAM が必要

パフォーマンス

モデル速度 (文/秒)メモリ次元
MiniLM~2000120MB384
MPNet~600420MB768
RoBERTa~3001.3GB1024

リソース

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
davila7
リポジトリ
davila7/claude-code-templates
ライセンス
MIT
最終更新
不明

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT

関連スキル

汎用その他⭐ リポ 1,982

superfluid

Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード:Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool(member/distributor)、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper

by LeoYeAI
汎用その他⭐ リポ 100

civ-finish-quotes

実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。

by huxiuhan
汎用その他⭐ リポ 1,110

nookplot

Base(Ethereum L2)上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。

by BankrBot
汎用その他⭐ リポ 59

web3-polymarket

Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。

by elophanto
汎用その他⭐ リポ 52

ethskills

Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格(ERC-20、ERC-721、ERC-4626など)、Layer 2ネットワーク(Base、Arbitrum、Optimism、zkSync、Polygon)、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化(EIPライフサイクル、フォーク追跡、今後の変更予定)といったトピックを含みます。

by jiayaoqijia
汎用その他⭐ リポ 44

xxyy-trade

このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。

by Jimmy-Holiday
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: davila7 · davila7/claude-code-templates · ライセンス: MIT