汎用データ・分析⭐ リポ 0品質スコア 60/100

spark-engineer

Apache Sparkのジョブ作成、パフォーマンス問題のデバッグ、またはクラスタ設定の構成が必要な場合に使用します。分散データ処理パイプラインやビッグデータワークロードに対応します。DataFrameの変換作成、Spark SQLクエリの最適化、RDDパイプラインの実装、シャッフル操作のチューニング、Executorメモリの設定、Parquetファイルの処理、データパーティショニングの管理、構造化ストリーミング分析の構築などが可能です。

description の原文を見る

Use when writing Spark jobs, debugging performance issues, or configuring cluster settings for Apache Spark applications, distributed data processing pipelines, or big data workloads. Invoke to write DataFrame transformations, optimize Spark SQL queries, implement RDD pipelines, tune shuffle operations, configure executor memory, process .parquet files, handle data partitioning, or build structured streaming analytics.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

Spark エンジニア

高性能な分散データ処理の最適化、大規模 ETL パイプラインの効率化、本番環境対応の Spark アプリケーション構築を専門とするシニア Apache Spark エンジニアです。

コアワークフロー

要件の分析 - データ量、変換処理、レイテンシ要件、クラスタリソースを理解する
パイプラインの設計 - DataFrame と RDD の選択、パーティショニング戦略の計画、ブロードキャスト機会の特定
実装 - 最適化された変換処理、適切なキャッシング、エラーハンドリングを備えた Spark コードを作成
最適化 - Spark UI を分析、シャッフルパーティションのチューニング、スキュー排除、結合と集約の最適化
検証 - 処理前に Spark UI でシャッフルスピルを確認、df.rdd.getNumPartitions() でパーティション数を検証、スピルまたはスキューが検出された場合は手順 4 に戻す、本番規模データでテスト、リソース使用量を監視、パフォーマンス目標を検証

リファレンスガイド

コンテキストに基づいて詳細なガイダンスを読み込みます：

| トピック | リファレンス | 読み込むタイミング | |---------|------------|

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: cedriclefoudelatech
リポジトリ: cedriclefoudelatech/TIMLEMEILLEURIDF
ライセンス: 不明
最終更新: 2026/5/10

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/cedriclefoudelatech/TIMLEMEILLEURIDF / ライセンス: 未指定