Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

nextflow-development

Name: nextflow-development
Author: anthropics

nf-coreのバイオインフォマティクスパイプライン（rnaseq・sarek・atacseq）を使って、シーケンシングデータの解析を実行します。ローカルのFASTQファイルやGEO/SRAの公開データセットを対象に、RNA-seq・WGS/WES・ATAC-seqデータを解析する際に使用します。nf-core・Nextflow・FASTQデータ解析・バリアントコール・遺伝子発現・差次的発現解析・GEOデータ再解析・GSE/GSM/SRRアクセッション番号・サンプルシート作成などのキーワードで起動します。

description の原文を見る

Run nf-core bioinformatics pipelines (rnaseq, sarek, atacseq) on sequencing data. Use when analyzing RNA-seq, WGS/WES, or ATAC-seq data—either local FASTQs or public datasets from GEO/SRA. Triggers on nf-core, Nextflow, FASTQ analysis, variant calling, gene expression, differential expression, GEO reanalysis, GSE/GSM/SRR accessions, or samplesheet creation.

SKILL.md 本文

nf-core パイプラインのデプロイ

ローカルまたは公開シーケンシングデータに対して nf-core バイオインフォマティクスパイプラインを実行します。

対象ユーザー: 大規模なオミクス分析（発現量差異解析、バリアント呼び出し、クロマチン開放性解析）を必要とするが、専門的なバイオインフォマティクス訓練を受けていないベンチ科学者および研究者。

ワークフローチェックリスト

- [ ] ステップ 0: データを取得 (GEO/SRA の場合)
- [ ] ステップ 1: 環境を確認 (必須)
- [ ] ステップ 2: パイプラインを選択 (ユーザーに確認)
- [ ] ステップ 3: テストプロファイルを実行 (必須)
- [ ] ステップ 4: サンプルシートを作成
- [ ] ステップ 5: 設定して実行 (ゲノムをユーザーに確認)
- [ ] ステップ 6: 出力を検証

ステップ 0: データを取得 (GEO/SRA のみ)

ユーザーがローカル FASTQ ファイルを持っている場合は、このステップをスキップします。

公開データセットの場合は、まず GEO/SRA から取得してください。完全なワークフローについては references/geo-sra-acquisition.md を参照してください。

クイックスタート:

# 1. 研究の情報を取得
python scripts/sra_geo_fetch.py info GSE110004

# 2. ダウンロード (対話モード)
python scripts/sra_geo_fetch.py download GSE110004 -o ./fastq -i

# 3. サンプルシートを生成
python scripts/sra_geo_fetch.py samplesheet GSE110004 --fastq-dir ./fastq -o samplesheet.csv

決定ポイント: 研究情報を取得した後、ユーザーに確認してください:

ダウンロードするサンプルのサブセット (複数のデータ型がある場合)
推奨されるゲノムとパイプライン

その後、ステップ 1 に進みます。

ステップ 1: 環境を確認

最初に実行してください。この環境チェックに合格しないとパイプラインは失敗します。

python scripts/check_environment.py

すべての重要なチェックに合格する必要があります。失敗がある場合は、修正手順を提供してください:

Docker の問題

問題	修正方法
インストールされていない	https://docs.docker.com/get-docker/ からインストール
権限が拒否された	`sudo usermod -aG docker $USER` を実行してから再ログイン
デーモンが実行されていない	`sudo systemctl start docker`

Nextflow の問題

問題	修正方法
インストールされていない	`curl -s https://get.nextflow.io \| bash && mv nextflow ~/bin/`
バージョンが 23.04 未満	`nextflow self-update`

Java の問題

問題	修正方法
インストールされていない / バージョン 11 未満	`sudo apt install openjdk-11-jdk`

すべてのチェックに合格するまで先に進まないでください。 HPC/Singularity については references/troubleshooting.md を参照してください。

ステップ 2: パイプラインを選択

決定ポイント: 先に進む前にユーザーに確認してください。

データ型	パイプライン	バージョン	目的
RNA-seq	`rnaseq`	3.22.2	遺伝子発現量
WGS/WES	`sarek`	3.7.1	バリアント呼び出し
ATAC-seq	`atacseq`	2.1.2	クロマチン開放性

データから自動検出:

python scripts/detect_data_type.py /path/to/data

パイプライン固有の詳細については:

references/pipelines/rnaseq.md
references/pipelines/sarek.md
references/pipelines/atacseq.md

ステップ 3: テストプロファイルを実行

小規模データで環境を検証します。実データの前に必須です。

nextflow run nf-core/<pipeline> -r <version> -profile test,docker --outdir test_output

パイプライン	コマンド
rnaseq	`nextflow run nf-core/rnaseq -r 3.22.2 -profile test,docker --outdir test_rnaseq`
sarek	`nextflow run nf-core/sarek -r 3.7.1 -profile test,docker --outdir test_sarek`
atacseq	`nextflow run nf-core/atacseq -r 2.1.2 -profile test,docker --outdir test_atacseq`

検証:

ls test_output/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log

テストが失敗した場合は references/troubleshooting.md を参照してください。

ステップ 4: サンプルシートを作成

自動的に生成

python scripts/generate_samplesheet.py /path/to/data <pipeline> -o samplesheet.csv

スクリプトは以下を実行します:

FASTQ/BAM/CRAM ファイルを検出
R1/R2 リードをペアリング
サンプルメタデータを推論
書き込む前に検証

sarek の場合: 自動検出されない場合、スクリプトは tumor/normal ステータスを入力するよう促します。

既存のサンプルシートを検証

python scripts/generate_samplesheet.py --validate samplesheet.csv <pipeline>

サンプルシートフォーマット

rnaseq:

sample,fastq_1,fastq_2,strandedness
SAMPLE1,/abs/path/R1.fq.gz,/abs/path/R2.fq.gz,auto

sarek:

patient,sample,lane,fastq_1,fastq_2,status
patient1,tumor,L001,/abs/path/tumor_R1.fq.gz,/abs/path/tumor_R2.fq.gz,1
patient1,normal,L001,/abs/path/normal_R1.fq.gz,/abs/path/normal_R2.fq.gz,0

atacseq:

sample,fastq_1,fastq_2,replicate
CONTROL,/abs/path/ctrl_R1.fq.gz,/abs/path/ctrl_R2.fq.gz,1

ステップ 5: 設定して実行

5a. ゲノムの可用性を確認

python scripts/manage_genomes.py check <genome>
# インストールされていない場合:
python scripts/manage_genomes.py download <genome>

一般的なゲノム: GRCh38 (ヒト), GRCh37 (レガシー), GRCm39 (マウス), R64-1-1 (酵母), BDGP6 (ショウジョウバエ)

5b. 決定ポイント

決定ポイント: ユーザーに確認してください:

ゲノム: 使用する参照ゲノム
パイプライン固有のオプション:
- rnaseq: aligner (star_salmon を推奨、低メモリの場合は hisat2)
- sarek: tools (生殖系統変異は haplotypecaller、体細胞変異は mutect2)
- atacseq: read_length (50, 75, 100, または 150)

5c. パイプラインを実行

nextflow run nf-core/<pipeline> \
    -r <version> \
    -profile docker \
    --input samplesheet.csv \
    --outdir results \
    --genome <genome> \
    -resume

主要なフラグ:

-r: バージョンを固定
-profile docker: Docker を使用 (HPC の場合は singularity)
--genome: iGenomes キー
-resume: チェックポイントから続行

リソース制限 (必要な場合):

--max_cpus 8 --max_memory '32.GB' --max_time '24.h'

ステップ 6: 出力を検証

完了を確認

ls results/multiqc/multiqc_report.html
grep "Pipeline completed successfully" .nextflow.log

パイプライン別の主要な出力

rnaseq:

results/star_salmon/salmon.merged.gene_counts.tsv - 遺伝子カウント
results/star_salmon/salmon.merged.gene_tpm.tsv - TPM 値

sarek:

results/variant_calling/*/ - VCF ファイル
results/preprocessing/recalibrated/ - BAM ファイル

atacseq:

results/macs2/narrowPeak/ - ピークコール
results/bwa/mergedLibrary/bigwig/ - カバレッジトラック

クイックリファレンス

一般的な終了コードと修正については references/troubleshooting.md を参照してください。

失敗した実行を再開

nextflow run nf-core/<pipeline> -resume

参考資料

references/geo-sra-acquisition.md - 公開 GEO/SRA データのダウンロード
references/troubleshooting.md - 一般的な問題と修正
references/installation.md - 環境セットアップ
references/pipelines/rnaseq.md - RNA-seq パイプラインの詳細
references/pipelines/sarek.md - バリアント呼び出しの詳細
references/pipelines/atacseq.md - ATAC-seq の詳細

免責事項

このスキルは、nf-core バイオインフォマティクスパイプラインを Claude Code に統合して自動化された分析ワークフローを実現する方法を示すプロトタイプ例として提供されています。現在の実装は 3 つのパイプライン (rnaseq, sarek, atacseq) をサポートしており、コミュニティが nf-core パイプラインの全セットへのサポートを拡張するための基礎として機能します。

これは教育および研究目的で使用するためのものであり、特定のユースケースに対して適切な検証なしに本番環境対応と見なすべきではありません。ユーザーは、コンピューティング環境がパイプラインの要件を満たしていることを確認し、分析結果を検証する責任があります。

Anthropic はバイオインフォマティクス出力の正確性を保証せず、ユーザーは計算分析の検証に関する標準的なプラクティスに従う必要があります。この統合は、nf-core コミュニティから公式に承認されたものでも、提携されたものでもありません。

引用表記

結果を発表する際は、適切なパイプラインを引用してください。引用は各 nf-core リポジトリの CITATIONS.md ファイルで入手できます (例: https://github.com/nf-core/rnaseq/blob/3.22.2/CITATIONS.md)。

ライセンス

nf-core パイプライン: MIT License (https://nf-co.re/about)
Nextflow: Apache License, Version 2.0 (https://www.nextflow.io/about-us.html)
NCBI SRA Toolkit: Public Domain (https://github.com/ncbi/sra-tools/blob/master/LICENSE)

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: anthropics
リポジトリ: anthropics/knowledge-work-plugins
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/anthropics/knowledge-work-plugins / ライセンス: Apache-2.0

nextflow-development

SKILL.md 本文

nf-core パイプラインのデプロイ

ワークフローチェックリスト

ステップ 0: データを取得 (GEO/SRA のみ)

ステップ 1: 環境を確認

Docker の問題

Nextflow の問題

Java の問題

ステップ 2: パイプラインを選択

ステップ 3: テストプロファイルを実行

ステップ 4: サンプルシートを作成

自動的に生成

既存のサンプルシートを検証

サンプルシートフォーマット

ステップ 5: 設定して実行

5a. ゲノムの可用性を確認

5b. 決定ポイント

5c. パイプラインを実行

ステップ 6: 出力を検証

完了を確認

パイプライン別の主要な出力

クイックリファレンス

失敗した実行を再開

参考資料

免責事項

引用表記

ライセンス

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data

SKILL.md 本文

nf-core パイプラインのデプロイ

ワークフロー チェックリスト

ステップ 0: データを取得 (GEO/SRA のみ)

ステップ 1: 環境を確認

Docker の問題

Nextflow の問題

Java の問題

ステップ 2: パイプラインを選択

ステップ 3: テストプロファイルを実行

ステップ 4: サンプルシートを作成

自動的に生成

既存のサンプルシートを検証

サンプルシートフォーマット

ステップ 5: 設定して実行

5a. ゲノムの可用性を確認

5b. 決定ポイント

5c. パイプラインを実行

ステップ 6: 出力を検証

完了を確認

パイプライン別の主要な出力

クイックリファレンス

失敗した実行を再開

参考資料

免責事項

引用表記

ライセンス

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data

ワークフローチェックリスト