nextflow-development
nf-coreのバイオインフォマティクスパイプライン(rnaseq・sarek・atacseq)を使って、シーケンシングデータの解析を実行します。ローカルのFASTQファイルやGEO/SRAの公開データセットを対象に、RNA-seq・WGS/WES・ATAC-seqデータを解析する際に使用します。nf-core・Nextflow・FASTQデータ解析・バリアントコール・遺伝子発現・差次的発現解析・GEOデータ再解析・GSE/GSM/SRRアクセッション番号・サンプルシート作成などのキーワードで起動します。
description の原文を見る
Run nf-core bioinformatics pipelines (rnaseq, sarek, atacseq) on sequencing data. Use when analyzing RNA-seq, WGS/WES, or ATAC-seq data—either local FASTQs or public datasets from GEO/SRA. Triggers on nf-core, Nextflow, FASTQ analysis, variant calling, gene expression, differential expression, GEO reanalysis, GSE/GSM/SRR accessions, or samplesheet creation.
SKILL.md 本文
nf-core パイプラインのデプロイ
ローカルまたは公開シーケンシングデータに対して nf-core バイオインフォマティクスパイプラインを実行します。
対象ユーザー: 大規模なオミクス分析(発現量差異解析、バリアント呼び出し、クロマチン開放性解析)を必要とするが、専門的なバイオインフォマティクス訓練を受けていないベンチ科学者および研究者。
ワークフロー チェックリスト
- [ ] ステップ 0: データを取得 (GEO/SRA の場合)
- [ ] ステップ 1: 環境を確認 (必須)
- [ ] ステップ 2: パイプラインを選択 (ユーザーに確認)
- [ ] ステップ 3: テストプロファイルを実行 (必須)
- [ ] ステップ 4: サンプルシートを作成
- [ ] ステップ 5: 設定して実行 (ゲノムをユーザーに確認)
- [ ] ステップ 6: 出力を検証
ステップ 0: データを取得 (GEO/SRA のみ)
ユーザーがローカル FASTQ ファイルを持っている場合は、このステップをスキップします。
公開データセットの場合は、まず GEO/SRA から取得してください。完全なワークフローについては references/geo-sra-acquisition.md を参照してください。
クイックスタート:
# 1. 研究の情報を取得
python scripts/sra_geo_fetch.py info GSE110004
# 2. ダウンロード (対話モード)
python scripts/sra_geo_fetch.py download GSE110004 -o ./fastq -i
# 3. サンプルシートを生成
python scripts/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv
決定ポイント: 研究情報を取得した後、ユーザーに確認してください:
- ダウンロードするサンプルのサブセット (複数のデータ型がある場合)
- 推奨されるゲノムとパイプライン
その後、ステップ 1 に進みます。
ステップ 1: 環境を確認
最初に実行してください。この環境チェックに合格しないとパイプラインは失敗します。
python scripts/check_environment.py
すべての重要なチェックに合格する必要があります。失敗がある場合は、修正手順を提供してください:
Docker の問題
| 問題 | 修正方法 |
|---|---|
| インストールされていない | https://docs.docker.com/get-docker/ からインストール |
| 権限が拒否された | sudo usermod -aG docker $USER を実行してから再ログイン |
| デーモンが実行されていない | sudo systemctl start docker |
Nextflow の問題
| 問題 | 修正方法 |
|---|---|
| インストールされていない | curl -s https://get.nextflow.io | bash && mv nextflow ~/bin/ |
| バージョンが 23.04 未満 | nextflow self-update |
Java の問題
| 問題 | 修正方法 |
|---|---|
| インストールされていない / バージョン 11 未満 | sudo apt install openjdk-11-jdk |
すべてのチェックに合格するまで先に進まないでください。 HPC/Singularity については references/troubleshooting.md を参照してください。
ステップ 2: パイプラインを選択
決定ポイント: 先に進む前にユーザーに確認してください。
| データ型 | パイプライン | バージョン | 目的 |
|---|---|---|---|
| RNA-seq | rnaseq | 3.22.2 | 遺伝子発現量 |
| WGS/WES | sarek | 3.7.1 | バリアント呼び出し |
| ATAC-seq | atacseq | 2.1.2 | クロマチン開放性 |
データから自動検出:
python scripts/detect_data_type.py /path/to/data
パイプライン固有の詳細については:
references/pipelines/rnaseq.mdreferences/pipelines/sarek.mdreferences/pipelines/atacseq.md
ステップ 3: テストプロファイルを実行
小規模データで環境を検証します。実データの前に必須です。
nextflow run nf-core/<pipeline> -r <version> -profile test,docker --outdir test_output
| パイプライン | コマンド |
|---|---|
| rnaseq | nextflow run nf-core/rnaseq -r 3.22.2 -profile test,docker --outdir test_rnaseq |
| sarek | nextflow run nf-core/sarek -r 3.7.1 -profile test,docker --outdir test_sarek |
| atacseq | nextflow run nf-core/atacseq -r 2.1.2 -profile test,docker --outdir test_atacseq |
検証:
ls test_output/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log
テストが失敗した場合は references/troubleshooting.md を参照してください。
ステップ 4: サンプルシートを作成
自動的に生成
python scripts/generate_samplesheet.py /path/to/data <pipeline> -o samplesheet.csv
スクリプトは以下を実行します:
- FASTQ/BAM/CRAM ファイルを検出
- R1/R2 リードをペアリング
- サンプルメタデータを推論
- 書き込む前に検証
sarek の場合: 自動検出されない場合、スクリプトは tumor/normal ステータスを入力するよう促します。
既存のサンプルシートを検証
python scripts/generate_samplesheet.py --validate samplesheet.csv <pipeline>
サンプルシートフォーマット
rnaseq:
sample,fastq_1,fastq_2,strandedness
SAMPLE1,/abs/path/R1.fq.gz,/abs/path/R2.fq.gz,auto
sarek:
patient,sample,lane,fastq_1,fastq_2,status
patient1,tumor,L001,/abs/path/tumor_R1.fq.gz,/abs/path/tumor_R2.fq.gz,1
patient1,normal,L001,/abs/path/normal_R1.fq.gz,/abs/path/normal_R2.fq.gz,0
atacseq:
sample,fastq_1,fastq_2,replicate
CONTROL,/abs/path/ctrl_R1.fq.gz,/abs/path/ctrl_R2.fq.gz,1
ステップ 5: 設定して実行
5a. ゲノムの可用性を確認
python scripts/manage_genomes.py check <genome>
# インストールされていない場合:
python scripts/manage_genomes.py download <genome>
一般的なゲノム: GRCh38 (ヒト), GRCh37 (レガシー), GRCm39 (マウス), R64-1-1 (酵母), BDGP6 (ショウジョウバエ)
5b. 決定ポイント
決定ポイント: ユーザーに確認してください:
- ゲノム: 使用する参照ゲノム
- パイプライン固有のオプション:
- rnaseq: aligner (star_salmon を推奨、低メモリの場合は hisat2)
- sarek: tools (生殖系統変異は haplotypecaller、体細胞変異は mutect2)
- atacseq: read_length (50, 75, 100, または 150)
5c. パイプラインを実行
nextflow run nf-core/<pipeline> \
-r <version> \
-profile docker \
--input samplesheet.csv \
--outdir results \
--genome <genome> \
-resume
主要なフラグ:
-r: バージョンを固定-profile docker: Docker を使用 (HPC の場合はsingularity)--genome: iGenomes キー-resume: チェックポイントから続行
リソース制限 (必要な場合):
--max_cpus 8 --max_memory '32.GB' --max_time '24.h'
ステップ 6: 出力を検証
完了を確認
ls results/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log
パイプライン別の主要な出力
rnaseq:
results/star_salmon/salmon.merged.gene_counts.tsv- 遺伝子カウントresults/star_salmon/salmon.merged.gene_tpm.tsv- TPM 値
sarek:
results/variant_calling/*/- VCF ファイルresults/preprocessing/recalibrated/- BAM ファイル
atacseq:
results/macs2/narrowPeak/- ピークコールresults/bwa/mergedLibrary/bigwig/- カバレッジトラック
クイックリファレンス
一般的な終了コードと修正については references/troubleshooting.md を参照してください。
失敗した実行を再開
nextflow run nf-core/<pipeline> -resume
参考資料
references/geo-sra-acquisition.md- 公開 GEO/SRA データのダウンロードreferences/troubleshooting.md- 一般的な問題と修正references/installation.md- 環境セットアップreferences/pipelines/rnaseq.md- RNA-seq パイプラインの詳細references/pipelines/sarek.md- バリアント呼び出しの詳細references/pipelines/atacseq.md- ATAC-seq の詳細
免責事項
このスキルは、nf-core バイオインフォマティクスパイプラインを Claude Code に統合して自動化された分析ワークフローを実現する方法を示すプロトタイプ例として提供されています。現在の実装は 3 つのパイプライン (rnaseq, sarek, atacseq) をサポートしており、コミュニティが nf-core パイプラインの全セットへのサポートを拡張するための基礎として機能します。
これは教育および研究目的で使用するためのものであり、特定のユースケースに対して適切な検証なしに本番環境対応と見なすべきではありません。ユーザーは、コンピューティング環境がパイプラインの要件を満たしていることを確認し、分析結果を検証する責任があります。
Anthropic はバイオインフォマティクス出力の正確性を保証せず、ユーザーは計算分析の検証に関する標準的なプラクティスに従う必要があります。この統合は、nf-core コミュニティから公式に承認されたものでも、提携されたものでもありません。
引用表記
結果を発表する際は、適切なパイプラインを引用してください。引用は各 nf-core リポジトリの CITATIONS.md ファイルで入手できます (例: https://github.com/nf-core/rnaseq/blob/3.22.2/CITATIONS.md)。
ライセンス
- nf-core パイプライン: MIT License (https://nf-co.re/about)
- Nextflow: Apache License, Version 2.0 (https://www.nextflow.io/about-us.html)
- NCBI SRA Toolkit: Public Domain (https://github.com/ncbi/sra-tools/blob/master/LICENSE)
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- anthropics
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/anthropics/knowledge-work-plugins / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。