Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

exploratory-data-analysis

Name: exploratory-data-analysis
Author: davila7

化学・バイオインフォマティクス・顕微鏡・分光法・プロテオミクス・メタボロミクスなど200以上のファイル形式に対応し、科学データファイルの包括的な探索的データ分析を実行するスキル。ファイルの種類を自動検出し、構造・内容・品質・特性を把握するための詳細なMarkdownレポートをフォーマット別に生成します。データの品質指標や次のステップとなる分析手法の推奨も含まれるため、科学データファイルを初めて調査・把握したい場面で活用できます。

description の原文を見る

Perform comprehensive exploratory data analysis on scientific data files across 200+ file formats. This skill should be used when analyzing any scientific data file to understand its structure, content, quality, and characteristics. Automatically detects file type and generates detailed markdown reports with format-specific analysis, quality metrics, and downstream analysis recommendations. Covers chemistry, bioinformatics, microscopy, spectroscopy, proteomics, metabolomics, and general scientific data formats.

SKILL.md 本文

探索的データ分析

概要

複数の分野にわたる科学データファイルに対して包括的な探索的データ分析(EDA)を実行します。このスキルは自動ファイルタイプ検出、形式固有の分析、データ品質評価を提供し、ドキュメンテーションと下流分析計画に適した詳細なマークダウンレポートを生成します。

主な機能:

200+以上の科学ファイル形式の自動検出と分析
包括的な形式固有のメタデータ抽出
データ品質と整合性の評価
統計サマリーと分布
可視化の推奨
下流分析の提案
マークダウンレポート生成

このスキルを使用する場合

以下の場合にこのスキルを使用してください:

ユーザーが分析するために科学データファイルへのパスを提供する
ユーザーがデータファイルを「探索」「分析」または「要約」することを求める
ユーザーが科学データの構造と内容を理解したい
ユーザーが分析前にデータセットの包括的なレポートを必要とする
ユーザーがデータ品質や完全性を評価したい
ユーザーがファイルに適した分析タイプが何かを尋ねる

サポート対象ファイルカテゴリ

このスキルは6つの主要なカテゴリに整理された科学ファイル形式の包括的なカバレッジを備えています:

1. 化学および分子形式(60+拡張子)

構造ファイル、計算化学出力、分子動力学軌跡、および化学データベース。

ファイルタイプ: .pdb, .cif, .mol, .mol2, .sdf, .xyz, .smi, .gro, .log, .fchk, .cube, .dcd, .xtc, .trr, .prmtop, .psf など

参照ファイル: references/chemistry_molecular_formats.md

2. 生物情報学およびゲノミクス形式(50+拡張子)

配列データ、アラインメント、アノテーション、バリアント、および発現データ。

ファイルタイプ: .fasta, .fastq, .sam, .bam, .vcf, .bed, .gff, .gtf, .bigwig, .h5ad, .loom, .counts, .mtx など

参照ファイル: references/bioinformatics_genomics_formats.md

3. 顕微鏡法および画像形式(45+拡張子)

顕微鏡画像、医療画像、全スライド画像、および電子顕微鏡。

ファイルタイプ: .tif, .nd2, .lif, .czi, .ims, .dcm, .nii, .mrc, .dm3, .vsi, .svs, .ome.tiff など

参照ファイル: references/microscopy_imaging_formats.md

4. 分光学および分析化学形式(35+拡張子)

NMR、質量分析、IR/ラマン、UV-Vis、X線、クロマトグラフィ、およびその他の分析手法。

ファイルタイプ: .fid, .mzML, .mzXML, .raw, .mgf, .spc, .jdx, .xy, .cif(結晶学), .wdf など

参照ファイル: references/spectroscopy_analytical_formats.md

5. プロテオミクスおよびメタボロミクス形式(30+拡張子)

質量分析プロテオミクス、メタボロミクス、リピドミクス、およびマルチオミクスデータ。

ファイルタイプ: .mzML, .pepXML, .protXML, .mzid, .mzTab, .sky, .mgf, .msp, .h5ad など

参照ファイル: references/proteomics_metabolomics_formats.md

6. 一般的な科学データ形式(30+拡張子)

配列、テーブル、階層データ、圧縮アーカイブ、および共通の科学形式。

ファイルタイプ: .npy, .npz, .csv, .xlsx, .json, .hdf5, .zarr, .parquet, .mat, .fits, .nc, .xml など

参照ファイル: references/general_scientific_formats.md

ワークフロー

ステップ1: ファイルタイプ検出

ユーザーがファイルパスを提供するとき、最初にファイルタイプを識別します:

ファイル拡張子を抽出
適切な参照ファイルで拡張子を検索
ファイルカテゴリとフォーマット説明を識別
形式固有の情報を読み込む

例:

ユーザー: "Analyze data.fastq"
→ 拡張子: .fastq
→ カテゴリ: bioinformatics_genomics
→ フォーマット: FASTQ形式(品質スコア付き配列データ)
→ 参照: references/bioinformatics_genomics_formats.md

ステップ2: 形式固有の情報を読み込む

ファイルタイプに基づいて、対応する参照ファイルを読んで以下を理解します:

典型的なデータ: このフォーマットが含むデータの種類
ユースケース: このフォーマットの一般的な用途
Pythonライブラリ: Pythonでファイルを読む方法
EDAアプローチ: このデータタイプに適した分析

参照ファイルで特定の拡張子を検索します(例: bioinformatics_genomics_formats.md で「### .fastq」を検索)。

ステップ3: データ分析を実行

scripts/eda_analyzer.py スクリプトを使用するか、カスタム分析を実装します:

オプションA: アナライザースクリプトを使用

# スクリプトが自動的に以下を行います:
# 1. ファイルタイプを検出
# 2. 参照情報を読み込む
# 3. 形式固有の分析を実行
# 4. マークダウンレポートを生成

python scripts/eda_analyzer.py <filepath> [output.md]

オプションB: 会話内のカスタム分析 参照ファイルのフォーマット情報に基づいて、適切な分析を実行します:

表形式データ(CSV、TSV、Excel)の場合:

pandasで読み込む
次元とデータ型を確認
欠損値を分析
要約統計量を計算
外れ値を特定
重複をチェック

配列データ(FASTA、FASTQ)の場合:

配列数をカウント
長さ分布を分析
GC含量を計算
品質スコアを評価(FASTQ)

画像(TIFF、ND2、CZI)の場合:

次元(X、Y、Z、C、T)を確認
ビット深度と値範囲を分析
メタデータを抽出(チャネル、タイムスタンプ、空間キャリブレーション)
強度統計を計算

配列(NPY、HDF5)の場合:

形状と次元を確認
データ型を分析
統計サマリーを計算
欠損/無効な値をチェック

ステップ4: 包括的なレポートを生成

次のセクションを含むマークダウンレポートを作成します:

必須セクション:

タイトルとメタデータ
- ファイル名とタイムスタンプ
- ファイルサイズと場所
基本情報
- ファイルプロパティ
- フォーマット識別
ファイルタイプの詳細
- 参照からのフォーマット説明
- 典型的なデータ内容
- 一般的なユースケース
- 読み込み用Pythonライブラリ
データ分析
- 構造と次元
- 統計サマリー
- 品質評価
- データ特性
主な調査結果
- 注目すべきパターン
- 潜在的な問題
- 品質メトリクス
推奨事項
- 前処理ステップ
- 適切な分析
- ツールとメソッド
- 可視化アプローチ

テンプレート場所

レポート構造のガイドとして assets/report_template.md を使用します。

ステップ5: レポートを保存

説明的なファイル名でマークダウンレポートを保存します:

パターン: {original_filename}_eda_report.md
例: experiment_data.fastq → experiment_data_eda_report.md

詳細な形式リファレンス

各参照ファイルには、数十のファイルタイプの包括的な情報が含まれています。特定の形式について情報を見つけるには:

拡張子からカテゴリを識別
適切な参照ファイルを読む
拡張子に一致するセクション見出しを検索(例: "### .pdb")
フォーマット情報を抽出

参照ファイル構造

各フォーマットエントリには以下を含みます:

説明: フォーマットが何か
典型的なデータ: 何が含まれているか
ユースケース: 一般的な用途
Pythonライブラリ: 読む方法(コード例付き)
EDAアプローチ: 実行する特定の分析

例の検索:

### .pdb - Protein Data Bank
**説明:** 生物大分子の3D構造の標準フォーマット
**典型的なデータ:** 原子座標、残基情報、二次構造
**ユースケース:** タンパク質構造分析、分子可視化、ドッキング
**Pythonライブラリ:**
- `Biopython`: `Bio.PDB`
- `MDAnalysis`: `MDAnalysis.Universe('file.pdb')`
**EDAアプローチ:**
- 構造検証(結合長、角度)
- B因子分布
- 欠損残基検出
- ラマチャンドランプロット

ベストプラクティス

参照ファイルの読み込み

参照ファイルは大きい(各10,000語以上)です。効率的に使用するには:

拡張子で検索: grepを使用して特定の形式を見つける

import re
with open('references/chemistry_molecular_formats.md', 'r') as f:
    content = f.read()
    pattern = r'### \.pdb[^#]*?(?=###|\Z)'
    match = re.search(pattern, content, re.IGNORECASE | re.DOTALL)

関連セクションを抽出: 不必要に参照ファイル全体をコンテキストに読み込まない
フォーマット情報をキャッシュ: 同じタイプの複数のファイルを分析する場合、フォーマット情報を再利用

データ分析

大規模ファイルをサンプリング: 数百万のレコードがあるファイルの場合、代表的なサンプルを分析
エラーを適切に処理: 多くの科学形式は特定のライブラリが必要です。明確なインストール指示を提供
メタデータを検証: メタデータの一貫性を相互確認(例: 指定の次元 vs 実際のデータ)
データプロヴェナンスを検討: 機器、ソフトウェアバージョン、処理ステップに注意

レポート生成

包括的であること: 下流分析のための関連情報をすべて含める
具体的であること: ファイルタイプに基づいた具体的な推奨を提供
実行可能であること: 特定の次のステップとツールを提案
コード例を含める: データの読み込みと操作方法を示す

例

例1: FASTQファイルの分析

# ユーザーが提供: "Analyze reads.fastq"

# 1. ファイルタイプを検出
extension = '.fastq'
category = 'bioinformatics_genomics'

# 2. 参照情報を読む
# references/bioinformatics_genomics_formats.md で "### .fastq" を検索

# 3. 分析を実行
from Bio import SeqIO
sequences = list(SeqIO.parse('reads.fastq', 'fastq'))
# 計算: リード数、長さ分布、品質スコア、GC含量

# 4. レポートを生成
# 含める: フォーマット説明、分析結果、QC推奨

# 5. 保存: reads_eda_report.md

例2: CSVデータセットの分析

# ユーザーが提供: "Explore experiment_results.csv"

# 1. 検出: .csv → general_scientific

# 2. CSV形式の参照を読む

# 3. 分析
import pandas as pd
df = pd.read_csv('experiment_results.csv')
# 次元、dtypes、欠損値、統計量、相関

# 4. レポートを生成:
# - データ構造
# - 欠損値パターン
# - 統計サマリー
# - 相関行列
# - 外れ値検出結果

# 5. レポートを保存

例3: 顕微鏡データの分析

# ユーザーが提供: "Analyze cells.nd2"

# 1. 検出: .nd2 → microscopy_imaging (ニコン形式)

# 2. ND2形式の参照を読む
# 学習: 多次元(XYZCT)、nd2readerが必要

# 3. 分析
from nd2reader import ND2Reader
with ND2Reader('cells.nd2') as images:
    # 抽出: 次元、チャネル、タイムポイント、メタデータ
    # 計算: 強度統計、フレーム情報

# 4. レポートを生成:
# - 画像次元(XY、Z-スタック、時間、チャネル)
# - チャネル波長
# - ピクセルサイズとキャリブレーション
# - 画像分析の推奨

# 5. レポートを保存

トラブルシューティング

ライブラリが見つからない

多くの科学形式は専門的なライブラリが必要です:

問題: ファイルを読もうとするとインポートエラー

解決: 明確なインストール指示を提供

try:
    from Bio import SeqIO
except ImportError:
    print("Biopythonをインストール: uv pip install biopython")

カテゴリ別の一般的な要件:

生物情報学: biopython, pysam, pyBigWig
化学: rdkit, mdanalysis, cclib
顕微鏡法: tifffile, nd2reader, aicsimageio, pydicom
分光学: nmrglue, pymzml, pyteomics
一般: pandas, numpy, h5py, scipy

未知のファイルタイプ

ファイル拡張子が参照にない場合:

ユーザーにファイルフォーマットについて質問
ベンダー固有の変種であるかを確認
ファイル構造に基づいて汎用分析を試みる(テキスト vs バイナリ)
一般的な推奨を提供

大規模ファイル

非常に大規模なファイルの場合:

サンプリング戦略を使用(最初のNレコード)
メモリマップアクセスを使用(HDF5、NPY)
チャンク処理(CSV、FASTQ)
サンプルに基づいて推定を提供

スクリプト使用法

scripts/eda_analyzer.py を直接使用できます:

# 基本的な使用法
python scripts/eda_analyzer.py data.csv

# 出力ファイルを指定
python scripts/eda_analyzer.py data.csv output_report.md

# スクリプトは以下を行います:
# 1. ファイルタイプを自動検出
# 2. フォーマット参照を読み込む
# 3. 適切な分析を実行
# 4. マークダウンレポートを生成

スクリプトは多くの一般的な形式の自動分析をサポートしていますが、会話内のカスタム分析はより柔軟性があり、ドメイン固有の洞察を提供します。

高度な使用法

マルチファイル分析

複数の関連ファイルを分析する場合:

各ファイルに対して個別にEDAを実行
サマリー比較レポートを作成
関係と依存関係を識別
統合戦略を提案

品質管理

データ品質評価用:

フォーマット準拠をチェック
メタデータの一貫性を検証
完全性を評価
外れ値と異常を特定
予想範囲/分布と比較

前処理の推奨

データ特性に基づいて、以下を推奨:

正規化戦略
欠損値補完
外れ値処理
バッチ補正
フォーマット変換

リソース

scripts/

eda_analyzer.py: 直接実行またはインポート可能な包括的な分析スクリプト

references/

chemistry_molecular_formats.md: 60+の化学/分子ファイル形式
bioinformatics_genomics_formats.md: 50+の生物情報学形式
microscopy_imaging_formats.md: 45+の画像形式
spectroscopy_analytical_formats.md: 35+の分光学形式
proteomics_metabolomics_formats.md: 30+のオミクス形式
general_scientific_formats.md: 30+の一般的な形式

assets/

report_template.md: EDAレポート用の包括的なマークダウンテンプレート

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: davila7
リポジトリ: davila7/claude-code-templates
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT