Anthropic Claudeその他⭐ リポ 0品質スコア 50/100

sentence-transformers

文章・テキスト・画像の埋め込み生成に特化した最先端フレームワークで、5,000以上の事前学習済みモデルを提供し、意味的類似度の計算・クラスタリング・検索などのタスクに対応します。多言語・ドメイン特化・マルチモーダルモデルもサポートしており、RAGやセマンティック検索、類似度タスク向けの埋め込み生成が必要な場面で活用できます。本番環境での埋め込み生成に最適です。

description の原文を見る

Framework for state-of-the-art sentence, text, and image embeddings. Provides 5000+ pre-trained models for semantic similarity, clustering, and retrieval. Supports multilingual, domain-specific, and multimodal models. Use for generating embeddings for RAG, semantic search, or similarity tasks. Best for production embedding generation.

SKILL.md 本文

Sentence Transformers - 最先端の埋め込み

Transformers を使用した文およびテキスト埋め込みの Python フレームワーク。

Sentence Transformers の使用時期

使用する場合:

RAG 用の高品質な埋め込みが必要
意味的類似度と検索
テキストのクラスタリングと分類
多言語埋め込み (100+ 言語)
ローカルで埋め込みを実行 (API なし)
OpenAI 埋め込みの費用効果的な代替案

メトリクス:

GitHub スター 15,700+
事前学習済みモデル 5,000+
100+ 言語対応
PyTorch/Transformers ベース

代わりに使用する選択肢:

OpenAI Embeddings: API ベースで最高品質が必要な場合
Instructor: タスク固有の指示が必要な場合
Cohere Embed: マネージドサービス

クイックスタート

インストール

pip install sentence-transformers

基本的な使い方

from sentence_transformers import SentenceTransformer

# モデルをロード
model = SentenceTransformer('all-MiniLM-L6-v2')

# 埋め込みを生成
sentences = [
    "This is an example sentence",
    "Each sentence is converted to a vector"
]

embeddings = model.encode(sentences)
print(embeddings.shape)  # (2, 384)

# コサイン類似度
from sentence_transformers.util import cos_sim
similarity = cos_sim(embeddings[0], embeddings[1])
print(f"Similarity: {similarity.item():.4f}")

人気のモデル

汎用

# 高速で良好な品質 (384 次元)
model = SentenceTransformer('all-MiniLM-L6-v2')

# より高い品質 (768 次元)
model = SentenceTransformer('all-mpnet-base-v2')

# 最高品質 (1024 次元、遅い)
model = SentenceTransformer('all-roberta-large-v1')

多言語

# 50+ 言語
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 100+ 言語
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')

ドメイン特化型

# 法律ドメイン
model = SentenceTransformer('nlpaueb/legal-bert-base-uncased')

# 科学論文
model = SentenceTransformer('allenai/specter')

# コード
model = SentenceTransformer('microsoft/codebert-base')

意味的検索

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')

# コーパス
corpus = [
    "Python is a programming language",
    "Machine learning uses algorithms",
    "Neural networks are powerful"
]

# コーパスをエンコード
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)

# クエリ
query = "What is Python?"
query_embedding = model.encode(query, convert_to_tensor=True)

# 最も類似したものを検索
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)
print(hits)

類似度計算

# コサイン類似度
similarity = util.cos_sim(embedding1, embedding2)

# ドット積
similarity = util.dot_score(embedding1, embedding2)

# ペアワイズコサイン類似度
similarities = util.cos_sim(embeddings, embeddings)

バッチエンコーディング

# 効率的なバッチ処理
sentences = ["sentence 1", "sentence 2", ...] * 1000

embeddings = model.encode(
    sentences,
    batch_size=32,
    show_progress_bar=True,
    convert_to_tensor=False  # または PyTorch テンソルの場合は True
)

ファインチューニング

from sentence_transformers import InputExample, losses
from torch.utils.data import DataLoader

# 学習データ
train_examples = [
    InputExample(texts=['sentence 1', 'sentence 2'], label=0.8),
    InputExample(texts=['sentence 3', 'sentence 4'], label=0.3),
]

train_dataloader = DataLoader(train_examples, batch_size=16)

# 損失関数
train_loss = losses.CosineSimilarityLoss(model)

# 学習
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=10,
    warmup_steps=100
)

# 保存
model.save('my-finetuned-model')

LangChain 統合

from langchain_community.embeddings import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

# ベクトルストアで使用
from langchain_chroma import Chroma

vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings
)

LlamaIndex 統合

from llama_index.embeddings.huggingface import HuggingFaceEmbedding

embed_model = HuggingFaceEmbedding(
    model_name="sentence-transformers/all-mpnet-base-v2"
)

from llama_index.core import Settings
Settings.embed_model = embed_model

# インデックスで使用
index = VectorStoreIndex.from_documents(documents)

モデル選択ガイド

モデル	次元	速度	品質	ユースケース
all-MiniLM-L6-v2	384	高速	良好	汎用、プロトタイピング
all-mpnet-base-v2	768	中程度	より高い	本番環境 RAG
all-roberta-large-v1	1024	遅い	最高	高精度が必要な場合
paraphrase-multilingual	768	中程度	良好	多言語

ベストプラクティス

all-MiniLM-L6-v2 から開始 - 良好なベースライン
埋め込みを正規化 - コサイン類似度に最適
GPU が利用可能な場合は使用 - エンコーディングが 10 倍高速
バッチエンコーディング - より効率的
埋め込みをキャッシュ - 再計算は高コスト
ドメイン用にファインチューン - 品質を向上
異なるモデルをテスト - タスクによって品質が異なる
メモリを監視 - 大きなモデルはより多くの RAM が必要

パフォーマンス

モデル	速度 (文/秒)	メモリ	次元
MiniLM	~2000	120MB	384
MPNet	~600	420MB	768
RoBERTa	~300	1.3GB	1024

リソース

GitHub: https://github.com/UKPLab/sentence-transformers ⭐ 15,700+
モデル: https://huggingface.co/sentence-transformers
ドキュメント: https://www.sbert.net
ライセンス: Apache 2.0

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: davila7
リポジトリ: davila7/claude-code-templates
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT

関連スキル

汎用その他⭐ リポ 1,982

superfluid

Superfluidプロトコルおよびそのエコシステムに関するナレッジベースです。Superfluidについて情報を検索する際は、ウェブ検索の前にこちらを参照してください。対応キーワード：Superfluid、CFA、GDA、Super App、Super Token、stream、flow rate、real-time balance、pool（member/distributor）、IDA、sentinels、liquidation、TOGA、@sfpro/sdk、semantic money、yellowpaper、whitepaper

汎用その他⭐ リポ 100

civ-finish-quotes

実質的なタスクが真に完了した際に、文明風の儀式的な引用句を追加します。ユーザーやエージェントが機能追加、リファクタリング、分析、設計ドキュメント、プロセス改善、レポート、執筆タスクといった実際の成果物を完成させるときに、明示的な依頼がなくても使用します。短い返信や小さな修正、未完成の作業には適用しません。

汎用その他⭐ リポ 1,110

nookplot

Base（Ethereum L2）上のAIエージェント向け分散型調整ネットワークです。エージェントがオンチェーンアイデンティティを登録する、コンテンツを公開する、他のエージェントにメッセージを送る、マーケットプレイスで専門家を雇う、バウンティを投稿・請求する、レピュテーションを構築する、共有プロジェクトで協業する、リサーチチャレンジを解くことでNOOKをマイニングする、キュレーションされたナレッジを備えたスタンドアロンオンチェーンエージェントをデプロイする、またはアグリーメントとリワードで収益を得る場合に利用できます。エージェントネットワーク、エージェント調整、分散型エージェント、NOOKトークン、マイニングチャレンジ、ナレッジバンドル、エージェントレピュテーション、エージェントマーケットプレイス、ERC-2771メタトランザクション、Prepare-Sign-Relay、AgentFactory、またはNookplotが言及された場合にトリガーされます。

汎用その他⭐ リポ 59

web3-polymarket

Polygon上でのPolymarket予測市場取引統合です。認証機能(L1 EIP-712、L2 HMAC-SHA256、ビルダーヘッダー)、注文発注(GTC/GTD/FOK/FAK、バッチ、ポストオンリー、ハートビート)、市場データ(Gamma API、Data API、オーダーブック、サブグラフ)、WebSocketストリーミング(市場・ユーザー・スポーツチャネル)、CTF操作(分割、統合、償却、ネガティブリスク)、ブリッジ機能(入金、出金、マルチチェーン)、およびガスレスリレイトランザクションに対応しています。AIエージェント、自動マーケットメーカー、予測市場UI、またはPolygraph上のPolymarketと統合するアプリケーション構築時に活用できます。

汎用その他⭐ リポ 52

ethskills

Ethereum、EVM、またはブロックチェーン関連のリクエストに対応します。スマートコントラクト、dApps、ウォレット、DeFiプロトコルの構築、監査、デプロイ、インタラクションに適用されます。Solidityの開発、コントラクトアドレス、トークン規格（ERC-20、ERC-721、ERC-4626など）、Layer 2ネットワーク（Base、Arbitrum、Optimism、zkSync、Polygon）、Uniswap、Aave、Curveなどのプロトコルとの統合をカバーします。ガスコスト、コントラクトのデシマル設定、オラクルセキュリティ、リエントランシー、MEV、ブリッジング、ウォレット管理、オンチェーンデータの取得、本番環境へのデプロイ、プロトコル進化（EIPライフサイクル、フォーク追跡、今後の変更予定）といったトピックを含みます。

汎用その他⭐ リポ 44

xxyy-trade

このスキルは、ユーザーが「トークン購入」「トークン売却」「トークンスワップ」「暗号資産取引」「取引ステータス確認」「トランザクション照会」「トークンスキャン」「フィード」「チェーン監視」「トークン照会」「トークン詳細」「トークン安全性確認」「ウォレット一覧表示」「マイウォレット」「AIスキャン」「自動スキャン」「ツイートスキャン」「オンボーディング」「IP確認」「IPホワイトリスト」「トークン発行」「自動売却」「損切り」「利益確定」「トレーリングストップ」「保有者」「トップホルダー」「KOLホルダー」などをリクエストした場合、またはSolana/ETH/BSC/BaseチェーンでXXYYを経由した取引について言及した場合に使用します。XXYY Open APIを通じてオンチェーン取引とデータ照会を実現します。

by Jimmy-Holiday