tooluniverse-sequence-retrieval
NCBIおよびENAからDNA・RNA・タンパク質などの生物学的配列を取得し、遺伝子の曖昧さ解消やアクセッション番号の種別判定、詳細な配列プロファイルを提供します。配列のメタデータ、クロスデータベース参照、ダウンロードオプションを含む詳細レポートを生成します。ヌクレオチド配列やタンパク質配列、ゲノムデータが必要な場合、またはGenBank・RefSeq・EMBLのアクセッション番号が言及された際に使用してください。
description の原文を見る
Retrieves biological sequences (DNA, RNA, protein) from NCBI and ENA with gene disambiguation, accession type handling, and comprehensive sequence profiles. Creates detailed reports with sequence metadata, cross-database references, and download options. Use when users need nucleotide sequences, protein sequences, genome data, or mention GenBank, RefSeq, EMBL accessions.
SKILL.md 本文
生物学的配列検索
DNA、RNA、タンパク質配列を適切な曖昧性解消とクロスデータベース処理で検索します。
重要: ツール呼び出しでは常に英語の用語を使用してください。フォールバックとしてのみ元言語の用語を試してください。ユーザーの言語で応答してください。
推測するな、検索せよ: アクセッション番号やシーケンスバージョンを推測しないでください。常に NCBI または ENA から検索して確認してください。
ドメイン推論
配列品質の階層: RefSeq (NM_/NP_ = キュレーション済み) > RefSeq 予測配列 (XM_/XP_) > GenBank (提出済み)。ヒト標準アイソフォームには MANE Select トランスクリプトを優先します。バージョン番号を確認してください -- バージョン間で注釈が改善されます。
ワークフロー
フェーズ 0: 明確化 (必要に応じて) → フェーズ 1: 遺伝子/生物の曖昧性解消 → フェーズ 2: 検索・取得 → フェーズ 3: レポート
フェーズ 0: 明確化 (必要な場合)
以下の場合のみ質問してください: 遺伝子が複数の生物に存在する、配列型が不明確、系統が重要な場合。 以下をスキップしてください: 特定のアクセッション、明確な生物+遺伝子の組み合わせ、生物指定のある完全ゲノム要求。
フェーズ 1: 遺伝子/生物の曖昧性解消
アクセッションタイプの判定木
| プレフィックス | タイプ | 使用対象 |
|---|---|---|
| NC_/NM_/NR_/NP_/XM_ | RefSeq | NCBI のみ |
| U*/M*/K*/X*/CP*/NZ_ | GenBank | NCBI または ENA |
| EMBL 形式 | EMBL | ENA を推奨 |
重大: RefSeq アクセッションで ENA ツールを使用しないでください -- 404 が返ります。
識別チェックリスト
- 生物が確認された (学名)
- 遺伝子記号/名前が識別された
- 配列タイプが決定された (ゲノム/mRNA/タンパク質)
- ツール選択のためアクセッションプレフィックスが識別された
フェーズ 2: データ検索 (内部)
検索プロセスを黙って実行してください。説明しないでください。
# NCBI ヌクレオチド検索
result = tu.tools.NCBI_search_nucleotide(
operation="search", organism=organism, gene=gene,
strain=strain, keywords=keywords, seq_type=seq_type, limit=10
)
# UID からアクセッション番号を取得
accessions = tu.tools.NCBI_fetch_accessions(operation="fetch_accession", uids=result["data"]["uids"])
# 配列を検索 (FASTA または GenBank 形式)
sequence = tu.tools.NCBI_get_sequence(operation="fetch_sequence", accession=accession, format="fasta")
# ENA の代替案 (RefSeq 以外のアクセッションのみ)
entry = tu.tools.ena_get_entry(accession=accession)
fasta = tu.tools.ena_get_sequence_fasta(accession=accession)
フォールバックチェーン
| プライマリ | フォールバック | 備考 |
|---|---|---|
| NCBI_get_sequence | ENA (GenBank 形式の場合) | NCBI が利用不可 |
| ENA_get_entry | NCBI_get_sequence | ENA に RefSeq がない |
| NCBI_search_nucleotide | より広いキーワードで試行 | 結果なし |
フェーズ 3: 配列プロファイルレポート
配列プロファイルレポート として提示します。検索プロセスは隠してください。以下を含めます:
- 検索概要: クエリ、データベース、結果数
- プライマリ配列: アクセッション、タイプ (RefSeq/GenBank)、生物、系統、長さ、分子、トポロジー、キュレーションレベル
- 配列プレビュー: FASTA の最初の行 (切り詰め)
- 注釈概要: CDS/tRNA/rRNA/制御配列特性の数 (GenBank 形式から)
- 代替配列: 関連性とキュレーションによるランク付け、ENA 互換性
- クロスデータベース参照: RefSeq、GenBank、ENA/EMBL、BioProject、BioSample
- ダウンロードオプション: FASTA (BLAST/アラインメント用)、GenBank (注釈用)
キュレーションレベルのティア
| ティア | プレフィックス | 説明 |
|---|---|---|
| RefSeq リファレンス (最良) | NC_, NM_, NP_ | NCBI キュレーション済み、ゴールドスタンダード |
| RefSeq 予測配列 | XM_, XP_, XR_ | 計算機的に予測 |
| GenBank 検証済み | 各種 | 提出済み、部分的キュレーション |
| GenBank 直接提出 | 各種 | 直接提出 |
| サードパーティ | TPA_ | サードパーティ注釈 |
推論フレームワーク
配列品質: GenBank より RefSeq を優先します。バージョン番号を確認します。定義に「PREDICTED」が含まれる配列は実験的に検証されていません。
アクセッション指針: RefSeq = NCBI のみ。GenBank = ENA/EMBL でミラーリング。ヒト/モデル生物ではデフォルトで RefSeq mRNA (NM_); 微生物クエリでは最も完全なゲノムアセンブリ。
クロスデータベースの調整: 同じ配列でもアクセッション番号が異なる場合があります (例: GenBank U00096 = E. coli K-12 の RefSeq NC_000913)。利用可能な場合は常に両方を報告してください。GenBank/RefSeq 間の不一致は、通常 RefSeq キュレーションが提出エラーを修正したことを示します。
統合的な質問
- 利用可能な最高品質のアクセッション番号は何ですか?
- 他のデータベースに代替アクセッション番号がありますか?
- 注釈の完全性はどうですか?
- 配列は期待される生物/系統のものですか?
- ダウンロード形式はユーザーの下流解析に適していますか?
エラーハンドリング
| エラー | 応答 |
|---|---|
| 「検索基準が提供されていません」 | 生物、遺伝子、またはキーワードを追加してください |
| 「ENA 404 エラー」 | 可能性が高い RefSeq -- NCBI のみを使用してください |
| 「結果が見つかりません」 | 検索を広げて、スペルを確認し、同義語を試してください |
| 「配列が大きすぎます」 | サイズを記載し、代わりにダウンロードリンクを提供してください |
ツール参照
NCBI ツール: NCBI_search_nucleotide (検索)、NCBI_fetch_accessions (UID→アクセッション)、NCBI_get_sequence (取得)
ENA ツール (GenBank/EMBL のみ): ena_get_entry (メタデータ)、ena_get_sequence_fasta (FASTA)、ena_get_entry_summary (概要)
検索パラメータ参照
NCBI_search_nucleotide: operation="search", organism (学名), gene (記号), strain, keywords, seq_type (complete_genome/mrna/refseq), limit
NCBI_get_sequence: operation="fetch_sequence", accession, format (fasta/genbank)
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mims-harvard
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mims-harvard/tooluniverse / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。