Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

senior-data-engineer

Name: senior-data-engineer
Author: davila7

スケーラブルなデータパイプラインやETL/ELTシステム、データインフラの構築に特化した高度なデータエンジニアリングスキルです。Python、SQL、Spark、Airflow、dbt、Kafkaなどモダンなデータスタックに精通しており、データモデリング・パイプラインオーケストレーション・データ品質管理・DataOpsをカバーします。データアーキテクチャの設計、データパイプラインの構築、ワークフローの最適化、データガバナンスの実装などに活用してください。

description の原文を見る

World-class data engineering skill for building scalable data pipelines, ETL/ELT systems, and data infrastructure. Expertise in Python, SQL, Spark, Airflow, dbt, Kafka, and modern data stack. Includes data modeling, pipeline orchestration, data quality, and DataOps. Use when designing data architectures, building data pipelines, optimizing data workflows, or implementing data governance.

SKILL.md 本文

シニアデータエンジニア

本番環境グレードの AI/ML/Data システム向けのワールドクラスなシニアデータエンジニアスキル。

クイックスタート

主要機能

# Core Tool 1
python scripts/pipeline_orchestrator.py --input data/ --output results/

# Core Tool 2  
python scripts/data_quality_validator.py --target project/ --analyze

# Core Tool 3
python scripts/etl_performance_optimizer.py --config config.yaml --deploy

コア専門知識

このスキルでカバーする世界水準の能力:

高度な本番環境パターンとアーキテクチャ
スケーラブルなシステム設計と実装
大規模システムのパフォーマンス最適化
MLOps および DataOps のベストプラクティス
リアルタイム処理と推論
分散コンピューティングフレームワーク
モデルのデプロイとモニタリング
セキュリティとコンプライアンス
コスト最適化
チームリーダーシップとメンタリング

テックスタック

言語: Python、SQL、R、Scala、Go ML フレームワーク: PyTorch、TensorFlow、Scikit-learn、XGBoost データツール: Spark、Airflow、dbt、Kafka、Databricks LLM フレームワーク: LangChain、LlamaIndex、DSPy デプロイメント: Docker、Kubernetes、AWS/GCP/Azure モニタリング: MLflow、Weights & Biases、Prometheus データベース: PostgreSQL、BigQuery、Snowflake、Pinecone

リファレンスドキュメント

1. データパイプラインアーキテクチャ

references/data_pipeline_architecture.md に掲載されている包括的ガイド:

高度なパターンとベストプラクティス
本番環境実装戦略
パフォーマンス最適化テクニック
スケーラビリティの考慮事項
セキュリティとコンプライアンス
実世界のケーススタディ

2. データモデリングパターン

references/data_modeling_patterns.md の完全なワークフロードキュメント:

ステップバイステップのプロセス
アーキテクチャ設計パターン
ツール統合ガイド
パフォーマンスチューニング戦略
トラブルシューティング手順

3. DataOps ベストプラクティス

references/dataops_best_practices.md のテクニカルリファレンスガイド:

システム設計原則
実装例
設定のベストプラクティス
デプロイメント戦略
モニタリングと可観測性

本番環境パターン

パターン 1: スケーラブルなデータ処理

分散コンピューティングを用いたエンタープライズ規模のデータ処理:

水平スケーリングアーキテクチャ
フォルトトレランス設計
リアルタイムおよびバッチ処理
データ品質検証
パフォーマンスモニタリング

パターン 2: ML モデルのデプロイメント

高可用性の本番 ML システム:

低レイテンシーのモデルサービング
A/B テスティングインフラストラクチャ
フィーチャーストア統合
モデルモニタリングとドリフト検出
自動リトレーニングパイプライン

パターン 3: リアルタイム推論

高スループットの推論システム:

バッチングキャッシング戦略
ロードバランシング
自動スケーリング
レイテンシー最適化
コスト最適化

ベストプラクティス

開発

テスト駆動開発
コードレビューとペアプログラミング
ドキュメント as コード
すべてのバージョン管理
継続的インテグレーション

本番環境

すべての重要な項目をモニタリング
デプロイメント自動化
リリース用フィーチャーフラグ
カナリアデプロイメント
包括的なログ記録

チームリーダーシップ

ジュニアエンジニアのメンタリング
技術的意思決定の推進
コーディング基準の確立
学習文化の醸成
クロスファンクショナルコラボレーション

パフォーマンスターゲット

レイテンシー:

P50: < 50ms
P95: < 100ms
P99: < 200ms

スループット:

リクエスト/秒: > 1000
同時ユーザー数: > 10,000

可用性:

アップタイム: 99.9%
エラー率: < 0.1%

セキュリティ & コンプライアンス

認証 & 認可
データ暗号化 (保存時および転送中)
PII の取り扱いと匿名化
GDPR/CCPA コンプライアンス
定期的なセキュリティ監査
脆弱性管理

よく使うコマンド

# Development
python -m pytest tests/ -v --cov
python -m black src/
python -m pylint src/

# Training
python scripts/train.py --config prod.yaml
python scripts/evaluate.py --model best.pth

# Deployment
docker build -t service:v1 .
kubectl apply -f k8s/
helm upgrade service ./charts/

# Monitoring
kubectl logs -f deployment/service
python scripts/health_check.py

リソース

高度なパターン: references/data_pipeline_architecture.md
実装ガイド: references/data_modeling_patterns.md
テクニカルリファレンス: references/dataops_best_practices.md
自動化スクリプト: scripts/ ディレクトリ

シニアレベルの責任

ワールドクラスのシニアプロフェッショナルとして:

技術的リーダーシップ
- アーキテクチャの意思決定を推進
- チームメンバーをメンタリング
- ベストプラクティスを確立
- コード品質を確保
戦略的思考
- ビジネス目標との整合
- トレードオフの評価
- スケールに向けた計画
- 技術的負債の管理
コラボレーション
- チーム横断での作業
- 効果的なコミュニケーション
- コンセンサスの構築
- 知識共有
イノベーション
- 研究の最新動向に対応
- 新しいアプローチの実験
- コミュニティへの貢献
- 継続的改善の推進
本番環境エクセレンス
- 高可用性の確保
- プロアクティブなモニタリング
- パフォーマンスの最適化
- インシデント対応

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: davila7
リポジトリ: davila7/claude-code-templates
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT