汎用LLM・AI開発⭐ リポ 13品質スコア 71/100

langsmith

Name: langsmith
Author: akillness

LangSmithの作業をSDKコードに触れる前に、1つのワークフローパケットにルーティングします。ユーザーがLLMアプリやエージェントワークフローでLangSmithトレーシング、オフライン評価、アノテーション/レビューキュー、プロンプトレジストリ決定、監査/ギャップレビュー、またはクロスサービストレース伝播が必要な場合に使用します。trace-debug、eval、review、prompt-registry、propagation、auditのいずれかのパケットを選択してください。LangSmith、LangChainトレーシング、`@traceable`/`traceable`、`wrap_openai`/`wrapOpenAI`、データセット、実験、アノテーションキュー、フィードバック基準、Prompt Hub、ラントリー、トレースID、またはAI機能の本番環境信頼度でトリガーされます。一般的なSLO/アラート設計、LangSmith以外のデプロイメントオーケストレーション、またはLangSmith外のランタイムガードレールには対応していません。

description の原文を見る

Route LangSmith work into one workflow packet before touching SDK code. Use when the user needs LangSmith tracing, offline evals, annotation/review queues, prompt-registry decisions, audit/gap review, or cross-service trace propagation for an LLM app or agent workflow. Choose one packet: trace-debug, eval, review, prompt-registry, propagation, or audit. Triggers on: LangSmith, LangChain tracing, `@traceable` / `traceable`, `wrap_openai` / `wrapOpenAI`, datasets, experiments, annotation queues, feedback criteria, Prompt Hub, run trees, trace IDs, or production confidence for an AI feature. Not for generic SLO/alert design, non-LangSmith deployment orchestration, or runtime guardrails outside LangSmith.

SKILL.md 本文

LangSmith

このスキルを使用する場合

ユーザーはすでに LangSmith を選択しており、トレーシング、評価、レビュー、プロンプト所有権、またはトレース伝播のための最小限の有用なパケットが必要である。
リクエストが LangChain トレーシング、@traceable / traceable、wrap_openai / wrapOpenAI、アノテーションキュー、実行ツリー、トレース ID、データセット、または実験比較について言及している。
チームが、変更がデバッグトレース、オフライン評価ゲート、オンラインレビューキュー、Prompt Hub / プロンプトレジストリ作業、またはマルチサービスリネージを必要とするかどうかを決定する必要がある。
ユーザーはすでに LangSmith がある程度セットアップされているが、信頼度がまだ低く、監査/ギャップレビューが必要である。

このスキルをメインワークフローとして使用しない場合:

実際のジョブが汎用ダッシュボード / アラート / SLO / テレメトリ所有権 → monitoring-observability
実際のジョブが既存ログの根本原因トリアージ → log-analysis
実際のジョブがコードレベルの再現/バグ分離 → debugging
実際のジョブがデプロイメント / ロールアウトオーケストレーション → deployment-automation
実際のジョブが汎用エクスポートメトリクス解釈または KPI 統合 → data-analysis
実際のジョブがランタイムガードレール / 承認 / ポリシーミドルウェア → 関連するセキュリティまたはポリシースキル

コアアイデア

langsmith は ワークフローパケットルーターとして動作すべきで、巨大な SDK エンサイクロペディアではありません。

API に名前を付ける前にリクエストにラベルを付けます。
1 つのプライマリパケットを選択します。
質問に答える最小限のインストルメンテーション / 評価 / レビュー表面を選択します。
コンパクトなオペレーターブリーフを返します。
隣接する可観測性、デバッグ、デプロイメント、およびポリシー作業を素早く外部にルーティングします。

パケットを選択する前に、これらのサポートドキュメントを読んでください:

references/intake-packets-and-route-outs.md
references/modes-and-routing.md
references/python-sdk.md
references/typescript-sdk.md
references/cli.md

手順

ステップ 1: リクエストを正規化する

プロンプトをまずこのインテークパケットに変換します:

langsmith_packet:
  primary_packet: trace-debug | eval | review | prompt-registry | propagation | audit
  app_shape: chat | rag | tool-calling | agent | batch-job | multi-service | mixed | unknown
  runtime: python | typescript | mixed | cli-only | unknown
  request_type: setup | debug | pre-ship gate | production review | prompt decision | cross-service tracing | audit
  current_evidence: traces | datasets | evaluators | feedback queues | prompt versions | exported runs | none
  confidence_problem: missing traces | noisy traces | no regression gate | weak review rubric | prompt drift | broken lineage | mixed | unknown
  route_after: stay-here | monitoring-observability | log-analysis | debugging | deployment-automation | data-analysis

実行のための1 つのプライマリパケットを選択します。2 つが妥当に見える場合は、不確実性を最も速く低減するものを選択します。

ステップ 2: パケットを選択する

パケット	使用時期	メイン出力	典型的なシグナル
`trace-debug`	実際の質問が「何が起こったのか?」である	trace-debug パケット	見える化の欠如、ラッパー/デコレーター、トレースカバレッジ、メタデータ規律
`eval`	変更がプレシップまたは回帰信頼が必要である	eval パケット	データセット作成、評価器、実験、ベースライン/候補比較
`review`	トレースは存在するが本番での信頼が弱い	review パケット	アノテーションキュー、フィードバック基準、ヒューマンスコアリング、インラインレビュー
`prompt-registry`	プロンプト/バージョン所有権がボトルネック	prompt パケット	Prompt Hub、プロンプトバージョン、Git 同期、プロンプトバリアント比較
`propagation`	1 つのリクエストがサービス、ジョブ、ツール、またはエージェントにまたがる	propagation パケット	親/子トレース ID、クロスサービスヘッダー、マルチホップリネージ
`audit`	LangSmith は存在するがまだ有用ではない	audit パケット	ノイジートレース、欠落 ID、評価の欠如、プロンプト所有権の不明確さ

パケットルール:

チームが実行ツリーを説明できない場合は trace-debug を優先します。
次のリスクが回帰ゲートなしで出荷されることである場合は eval を優先します。
実際のユーザー出力がヒューマンまたはストラクチャード品質フィードバックを必要とする場合は review を優先します。
プロンプト/バージョン選択が実際のボトルネックである場合のみ prompt-registry を優先します。
1 つのリクエストが単一のサービス境界を超えて広がる場合は propagation を優先します。
システムが既に「LangSmith を持っている」が信頼度がまだ低い場合は audit を優先します。

ステップ 3: 最小限の有用な表面を選択する

表面	使用時期	強み	リスク
プロバイダーラッパー (`wrap_openai`、`wrap_anthropic`、`wrapOpenAI`)	モデル呼び出しカバレッジが必要である	見える化トレースへの最速パス	単独で使用する場合、より高度なワークフローコンテキストを見落とす
デコレーター / `traceable()`	アプリ関数の周りに名前付きスパンが必要である	明確なスパン境界、再利用可能	それでも意図的な配置が必要
手動トレースブロック / トレーシングコンテキスト	スコープまたは一時的な見える化が必要である	監査と疑わしいブロックに適している	計器装置が不足しやすい
アノテーションキュー + フィードバック基準	ストラクチャードヒューマンレビューが必要である	ルーブリックとレビュアーフローを保持	レビュー所有権は引き続き設計が必要
データセット + 実験ワークフロー	ベンチマークまたは回帰チェックが必要である	プレシップ比較を提供	制限されていない場合、汎用評価理論に漂流可能
CLI エクスポート/リスト/取得フロー	インストルメンテーション設計よりも監査/エクスポート操作が必要である	スクリプトと検査に適している	インストルメンテーション設計の代替ではない
クロスサービス伝播ヘッダー / メタデータ	エンドツーエンドリネージが必要である	親/子コンテキストを保持	サービス境界で忘れやすい

ルール:

現在の質問に答える最小限の表面を優先します。
常にプロジェクト/ワークスペース/環境グループ化に名前を付けます。
ヒューマンまたはダウンストリームツールが後で実行をレビューする場合は、run_id、trace_id、メタデータを保持します。
CLI、ワーカー、短寿命ジョブのシャットダウンフラッシュ / 待機動作を含めます。

ステップ 4: 必要な場合のみ評価またはレビューレイヤーを選択する

レイヤー	使用時期	注記
決定論的 / コード評価器	出力を機械的にチェックできる	構造/ファクチュアルルールの最初の選択肢
LLM-as-judge (`openevals`)	品質が主観的または参照が少ない	有用だが、グラウンドトゥルースではない
ヒューマンレビュー	スタークが高いまたはニュアンスが支配的である	ルーブリック、レビュアー、およびケイデンスが必要
ペアワイズ比較	2 つのプロンプト/モデル/アプリバージョンが比較されている	ベースライン vs 候補の決定に適している
オンライン評価器	本番トラフィックが継続的なスコアリングを必要とする	明示的なアラート/レビューセマンティクスとペアリング

1 つのレイヤーが他を置き換えると無視しないでください。

ステップ 5: 1 つのコンパクト LangSmith ブリーフを返す

デフォルトレスポンス形式:

## LangSmith ブリーフ
- パケット: trace-debug | eval | review | prompt-registry | propagation | audit
- アプリ形状: ...
- ランタイム: ...
- 現在の証拠: ...

## 選択した表面
- ラッパー / デコレーター / 手動トレース / データセット+実験 / レビュー キュー / プロンプト レジストリ / 伝播ヘッダー

## 必須設定
- `LANGSMITH_API_KEY`
- プロジェクト/ワークスペース/環境
- セルフホスト の場合のエンドポイント/ワークスペース オーバーライド

## 必須 ID / メタデータ
- `run_id`、`trace_id`、タグ、メタデータ フィールド、必要に応じてユーザー/セッション識別子

## 検証ステップ
- 1 つのトレース クエリ、1 つの実験比較、1 つのキュー レビュー チェック、または 1 つのプロンプト バージョン サニティ チェック

## ルートアウト
- ボトルネックが移動した場合の次の隣接スキル

コンパクトに保ちます。ポイントは、ユーザーに 1 つの最小限の次のアーティファクトを残すことであり、SDK ノートの壁ではありません。

ステップ 6: パケット固有のヒューリスティック

`trace-debug` の場合

欠落した見える化表面から開始: アプリスパン、ツール呼び出し、取得、プロバイダー呼び出し、またはワーカー境界。
すべてを盲目的にトレースするのではなく、ラッパーといくつかの高価値デコレーターを優先します。
インストルメンテーションがランディングした後、チームが実行すべき最初のトレースクエリ/フィルターを返します。

`eval` の場合

リスキーな変更を反映する最小限のデータセットを定義します。
決定論的チェックを LLM-as-judge またはヒューマンレビューから分離します。
ベースライン/候補比較、実験命名、並行処理/コスト制限、および出荷/非出荷決定ポイントに名前を付けます。

`review` の場合

フィードバックキー、スケールセマンティクス、レビュアー所有権、およびキューケイデンスを定義します。
run_id / trace_id を保持して、フィードバックが後で正しいアーティファクトにアタッチされるようにします。
問題がより大きい場合は、より広いサポートオペレーションワークフローを外部にルーティングします。

`prompt-registry` の場合

Prompt Hub / LangSmith がプロンプトを所有するか、Git/アプリ設定が標準的なままであるかを明示的に決定します。
プロンプトバージョンを評価または実験に接続します。レジストリを別の島として扱わないでください。
パブリックハブの閲覧がチームの真実のソースではなく、リファレンスのみである場合は明示的にします。

`propagation` の場合

親/子ヘッダー、メタデータハンドオフルール、およびトレースコンテキストを保持する必要があるサービスに名前を付けます。
分散システムの信頼性とアラートの懸念を汎用の可観測性にルーティングしたままにします。

`audit` の場合

ギャップを重大度で順位付けします: カバレッジの欠如、悪いメタデータ、評価の欠如、弱いレビューフロー、プロンプト/バージョンの曖昧さ、破損したフラッシュまたはリネージ。
巨大な再インストール計画ではなく、最初のラチェットを推奨します。

ステップ 7: 積極的にルートアウトする

LangSmith がメインボトルネックでなくなったらすぐに切り替えます:

汎用テレメトリ / ダッシュボード / アラート / SLO → monitoring-observability
既存ログの根本原因トリアージ → log-analysis
再現とバグ分離 → debugging
ロールアウト / デプロイ / 環境昇格 → deployment-automation
エクスポートメトリクス、実験、または KPI 解釈 → data-analysis
ポリシー / 承認 / ランタイムガードレール → 関連するセキュリティまたはポリシースキル

例

例 1: Trace-debug パケット

プロンプト:

FastAPI RAG サービスに LangSmith を追加して、取得器の変更後に回答品質が低下した理由をデバッグできるようにします。

適切なレスポンス形状:

trace-debug を選択
取得/ツールが見える化する必要がある場合は、ラッパーとターゲットされた高度なスパンを推奨
短寿命の実行用のプロジェクト/タグ/メタデータとフラッシュステップを定義
汎用サービスヘルス可観測性を外部にルーティング

例 2: Eval パケット

プロンプト:

このプロンプトリライトを出荷する前に、ベースライン、候補、および 1 つのジャッジを使用して LangSmith 評価ワークフローを構築します。

適切なレスポンス形状:

eval を選択
データセット、評価器ミックス、実験命名、および検証ステップを定義
決定論的チェックを LLM-as-judge とヒューマンレビューから分離
ロールアウトオーケストレーションをスコープ外に保つ

例 3: Review パケット

プロンプト:

既に LangSmith トレースがありますが、サポートリードは依然として AI アシスタントを信頼していません。ヒューマンスコアリング付きのレビューワークフローをセットアップします。

適切なレスポンス形状:

review を選択
フィードバックキー、ルーブリック、キュー所有権、および実行 ID 保持を定義
汎用プロンプト管理ではなく、レビューワークフローグラウンドに回答を保つ

例 4: Prompt-registry パケット

プロンプト:

これらのプロンプトは LangSmith Prompt Hub に存在する必要がありますか、それとも Git に留まるべきですか?

適切なレスポンス形状:

prompt-registry を選択
プラットフォーム所有とリファレンス所有のプロンプト真実源を比較
選択を実験とリリース信頼度に接続
Prompt Hub がオプションである場合は正直に留まる

例 5: Propagation パケット

プロンプト:

1 つのチャットリクエストはワーカーとツールに広がります。LangSmith 経由で 1 つのトレースを保つにはどうすればよいですか?

適切なレスポンス形状:

propagation を選択
親/子 ID、メタデータ伝播、およびサービス境界を定義
必要に応じて汎用分散システム可観測性を外部にルーティング

ベストプラクティス

SDK 呼び出しではなく、パケットから開始します。
LangSmith をトレース/評価/レビュー基盤として扱い、本番全体制御プレーンではありません。
run_id、trace_id、タグ、メタデータを意図的に保持します。
現在の質問に答える最小限の有用な表面を優先します。
決定論的チェック、LLM ジャッジ、ヒューマンレビューを区別して保つ。
Prompt Hub がオプションまたはリファレンスのみである場合は明示的にします。
スクリプト、ワーカー、およびクロンスタイルジョブのフラッシュ/待機動作を含めます。
1 つの検証ステップと 1 つのルートアウトで終了します。

リファレンス

references/intake-packets-and-route-outs.md
references/modes-and-routing.md
references/python-sdk.md
references/typescript-sdk.md
references/cli.md
公式ドキュメント: https://docs.langchain.com/langsmith
SDK リポジトリ: https://github.com/langchain-ai/langsmith-sdk
OpenEvals: https://github.com/langchain-ai/openevals

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: akillness
リポジトリ: akillness/oh-my-skills
ライセンス: MIT
最終更新: 2026/5/12

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/akillness/oh-my-skills / ライセンス: MIT

langsmith

SKILL.md 本文

LangSmith

このスキルを使用する場合

コアアイデア

手順

ステップ 1: リクエストを正規化する

ステップ 2: パケットを選択する

ステップ 3: 最小限の有用な表面を選択する

ステップ 4: 必要な場合のみ評価またはレビューレイヤーを選択する

ステップ 5: 1 つのコンパクト LangSmith ブリーフを返す

ステップ 6: パケット固有のヒューリスティック

`trace-debug` の場合

`eval` の場合

`review` の場合

`prompt-registry` の場合

`propagation` の場合

`audit` の場合

ステップ 7: 積極的にルートアウトする

例

例 1: Trace-debug パケット

例 2: Eval パケット

例 3: Review パケット

例 4: Prompt-registry パケット

例 5: Propagation パケット

ベストプラクティス

リファレンス

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui

SKILL.md 本文

LangSmith

このスキルを使用する場合

コアアイデア

手順

ステップ 1: リクエストを正規化する

ステップ 2: パケットを選択する

ステップ 3: 最小限の有用な表面を選択する

ステップ 4: 必要な場合のみ評価またはレビュー レイヤーを選択する

ステップ 5: 1 つのコンパクト LangSmith ブリーフを返す

ステップ 6: パケット固有のヒューリスティック

trace-debug の場合

eval の場合

review の場合

prompt-registry の場合

propagation の場合

audit の場合

ステップ 7: 積極的にルートアウトする

例

例 1: Trace-debug パケット

例 2: Eval パケット

例 3: Review パケット

例 4: Prompt-registry パケット

例 5: Propagation パケット

ベストプラクティス

リファレンス

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui

ステップ 4: 必要な場合のみ評価またはレビューレイヤーを選択する

`trace-debug` の場合

`eval` の場合

`review` の場合

`prompt-registry` の場合

`propagation` の場合

`audit` の場合