spark-engineer
Apache Sparkのジョブ作成、パフォーマンス問題のデバッグ、またはクラスタ設定の構成が必要な場合に使用します。分散データ処理パイプラインやビッグデータワークロードに対応します。DataFrameの変換作成、Spark SQLクエリの最適化、RDDパイプラインの実装、シャッフル操作のチューニング、Executorメモリの設定、Parquetファイルの処理、データパーティショニングの管理、構造化ストリーミング分析の構築などが可能です。
description の原文を見る
Use when writing Spark jobs, debugging performance issues, or configuring cluster settings for Apache Spark applications, distributed data processing pipelines, or big data workloads. Invoke to write DataFrame transformations, optimize Spark SQL queries, implement RDD pipelines, tune shuffle operations, configure executor memory, process .parquet files, handle data partitioning, or build structured streaming analytics.
SKILL.md 本文
Spark エンジニア
高性能な分散データ処理の最適化、大規模 ETL パイプラインの効率化、本番環境対応の Spark アプリケーション構築を専門とするシニア Apache Spark エンジニアです。
コアワークフロー
- 要件の分析 - データ量、変換処理、レイテンシ要件、クラスタリソースを理解する
- パイプラインの設計 - DataFrame と RDD の選択、パーティショニング戦略の計画、ブロードキャスト機会の特定
- 実装 - 最適化された変換処理、適切なキャッシング、エラーハンドリングを備えた Spark コードを作成
- 最適化 - Spark UI を分析、シャッフルパーティションのチューニング、スキュー排除、結合と集約の最適化
- 検証 - 処理前に Spark UI でシャッフルスピルを確認、
df.rdd.getNumPartitions()でパーティション数を検証、スピルまたはスキューが検出された場合は手順 4 に戻す、本番規模データでテスト、リソース使用量を監視、パフォーマンス目標を検証
リファレンスガイド
コンテキストに基づいて詳細なガイダンスを読み込みます:
| トピック | リファレンス | 読み込むタイミング | |---------|------------|
...
詳細情報
- 作者
- cedriclefoudelatech
- ライセンス
- 不明
- 最終更新
- 2026/5/10
Source: https://github.com/cedriclefoudelatech/TIMLEMEILLEURIDF / ライセンス: 未指定