Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

tooluniverse-sequence-retrieval

Name: tooluniverse-sequence-retrieval
Author: mims-harvard

NCBIおよびENAからDNA・RNA・タンパク質などの生物学的配列を取得し、遺伝子の曖昧さ解消やアクセッション番号の種別判定、詳細な配列プロファイルを提供します。配列のメタデータ、クロスデータベース参照、ダウンロードオプションを含む詳細レポートを生成します。ヌクレオチド配列やタンパク質配列、ゲノムデータが必要な場合、またはGenBank・RefSeq・EMBLのアクセッション番号が言及された際に使用してください。

description の原文を見る

Retrieves biological sequences (DNA, RNA, protein) from NCBI and ENA with gene disambiguation, accession type handling, and comprehensive sequence profiles. Creates detailed reports with sequence metadata, cross-database references, and download options. Use when users need nucleotide sequences, protein sequences, genome data, or mention GenBank, RefSeq, EMBL accessions.

SKILL.md 本文

生物学的配列検索

DNA、RNA、タンパク質配列を適切な曖昧性解消とクロスデータベース処理で検索します。

重要: ツール呼び出しでは常に英語の用語を使用してください。フォールバックとしてのみ元言語の用語を試してください。ユーザーの言語で応答してください。

推測するな、検索せよ: アクセッション番号やシーケンスバージョンを推測しないでください。常に NCBI または ENA から検索して確認してください。

ドメイン推論

配列品質の階層: RefSeq (NM_/NP_ = キュレーション済み) > RefSeq 予測配列 (XM_/XP_) > GenBank (提出済み)。ヒト標準アイソフォームには MANE Select トランスクリプトを優先します。バージョン番号を確認してください -- バージョン間で注釈が改善されます。

ワークフロー

フェーズ 0: 明確化 (必要に応じて) → フェーズ 1: 遺伝子/生物の曖昧性解消 → フェーズ 2: 検索・取得 → フェーズ 3: レポート

フェーズ 0: 明確化 (必要な場合)

以下の場合のみ質問してください: 遺伝子が複数の生物に存在する、配列型が不明確、系統が重要な場合。以下をスキップしてください: 特定のアクセッション、明確な生物+遺伝子の組み合わせ、生物指定のある完全ゲノム要求。

フェーズ 1: 遺伝子/生物の曖昧性解消

アクセッションタイプの判定木

プレフィックス	タイプ	使用対象
NC_/NM_/NR_/NP_/XM_	RefSeq	NCBI のみ
U/M/K/X/CP*/NZ_	GenBank	NCBI または ENA
EMBL 形式	EMBL	ENA を推奨

重大: RefSeq アクセッションで ENA ツールを使用しないでください -- 404 が返ります。

識別チェックリスト

生物が確認された (学名)
遺伝子記号/名前が識別された
配列タイプが決定された (ゲノム/mRNA/タンパク質)
ツール選択のためアクセッションプレフィックスが識別された

フェーズ 2: データ検索 (内部)

検索プロセスを黙って実行してください。説明しないでください。

# NCBI ヌクレオチド検索
result = tu.tools.NCBI_search_nucleotide(
    operation="search", organism=organism, gene=gene,
    strain=strain, keywords=keywords, seq_type=seq_type, limit=10
)

# UID からアクセッション番号を取得
accessions = tu.tools.NCBI_fetch_accessions(operation="fetch_accession", uids=result["data"]["uids"])

# 配列を検索 (FASTA または GenBank 形式)
sequence = tu.tools.NCBI_get_sequence(operation="fetch_sequence", accession=accession, format="fasta")

# ENA の代替案 (RefSeq 以外のアクセッションのみ)
entry = tu.tools.ena_get_entry(accession=accession)
fasta = tu.tools.ena_get_sequence_fasta(accession=accession)

フォールバックチェーン

プライマリ	フォールバック	備考
NCBI_get_sequence	ENA (GenBank 形式の場合)	NCBI が利用不可
ENA_get_entry	NCBI_get_sequence	ENA に RefSeq がない
NCBI_search_nucleotide	より広いキーワードで試行	結果なし

フェーズ 3: 配列プロファイルレポート

配列プロファイルレポート として提示します。検索プロセスは隠してください。以下を含めます:

検索概要: クエリ、データベース、結果数
プライマリ配列: アクセッション、タイプ (RefSeq/GenBank)、生物、系統、長さ、分子、トポロジー、キュレーションレベル
配列プレビュー: FASTA の最初の行 (切り詰め)
注釈概要: CDS/tRNA/rRNA/制御配列特性の数 (GenBank 形式から)
代替配列: 関連性とキュレーションによるランク付け、ENA 互換性
クロスデータベース参照: RefSeq、GenBank、ENA/EMBL、BioProject、BioSample
ダウンロードオプション: FASTA (BLAST/アラインメント用)、GenBank (注釈用)

キュレーションレベルのティア

ティア	プレフィックス	説明
RefSeq リファレンス (最良)	NC_, NM_, NP_	NCBI キュレーション済み、ゴールドスタンダード
RefSeq 予測配列	XM_, XP_, XR_	計算機的に予測
GenBank 検証済み	各種	提出済み、部分的キュレーション
GenBank 直接提出	各種	直接提出
サードパーティ	TPA_	サードパーティ注釈

推論フレームワーク

配列品質: GenBank より RefSeq を優先します。バージョン番号を確認します。定義に「PREDICTED」が含まれる配列は実験的に検証されていません。

アクセッション指針: RefSeq = NCBI のみ。GenBank = ENA/EMBL でミラーリング。ヒト/モデル生物ではデフォルトで RefSeq mRNA (NM_); 微生物クエリでは最も完全なゲノムアセンブリ。

クロスデータベースの調整: 同じ配列でもアクセッション番号が異なる場合があります (例: GenBank U00096 = E. coli K-12 の RefSeq NC_000913)。利用可能な場合は常に両方を報告してください。GenBank/RefSeq 間の不一致は、通常 RefSeq キュレーションが提出エラーを修正したことを示します。

統合的な質問

利用可能な最高品質のアクセッション番号は何ですか?
他のデータベースに代替アクセッション番号がありますか?
注釈の完全性はどうですか?
配列は期待される生物/系統のものですか?
ダウンロード形式はユーザーの下流解析に適していますか?

エラーハンドリング

エラー	応答
「検索基準が提供されていません」	生物、遺伝子、またはキーワードを追加してください
「ENA 404 エラー」	可能性が高い RefSeq -- NCBI のみを使用してください
「結果が見つかりません」	検索を広げて、スペルを確認し、同義語を試してください
「配列が大きすぎます」	サイズを記載し、代わりにダウンロードリンクを提供してください

ツール参照

NCBI ツール: NCBI_search_nucleotide (検索)、NCBI_fetch_accessions (UID→アクセッション)、NCBI_get_sequence (取得) ENA ツール (GenBank/EMBL のみ): ena_get_entry (メタデータ)、ena_get_sequence_fasta (FASTA)、ena_get_entry_summary (概要)

検索パラメータ参照

NCBI_search_nucleotide: operation="search", organism (学名), gene (記号), strain, keywords, seq_type (complete_genome/mrna/refseq), limit

NCBI_get_sequence: operation="fetch_sequence", accession, format (fasta/genbank)

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mims-harvard
リポジトリ: mims-harvard/tooluniverse
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mims-harvard/tooluniverse / ライセンス: Apache-2.0