google-cloud-waf-reliability
Google Cloud Well-Architected Frameworkの設計原則と推奨事項に基づき、Google Cloudワークロードの信頼性向上に関するガイダンスを生成します。ワークロードの評価、信頼性要件の特定、およびGoogle Cloud上でワークロードを信頼性高く構築・デプロイ・管理するための実践的な推奨事項の提供に活用してください。
description の原文を見る
Generates reliability-focused guidance for Google Cloud workloads based on the design principles and recommendations in the Google Cloud Well-Architected Framework. Use this skill to evaluate a workload, identify reliability requirements, and provide actionable recommendations for build, deploy, and manage the workload reliably in Google Cloud.
SKILL.md 本文
Google Cloud Well-Architected Framework の信頼性柱向けスキル
概要
Google Cloud Well-Architected Framework の信頼性柱は、Google Cloud で信頼性が高く、復元力のある、高可用性のワークロードを設計、デプロイ、管理するのに役立つ原則と推奨事項を提供します。信頼性の高いシステムは、定義された条件下で意図された機能を一貫して実行し、障害に強く、中断から優雅に回復することで、ダウンタイムを最小化し、ユーザー体験を向上させ、データの整合性を確保します。
核となる原則
Well-Architected Framework の信頼性柱の推奨事項は、以下の核となる原則と一致しています。
-
ユーザー体験の目標に基づいて信頼性を定義する: 信頼性の測定は、インフラストラクチャメトリクスのみに依存するのではなく、システムのユーザーの実際の体験を反映する必要があります。ユーザーにとって最も重要な成果に焦点を当てます。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/define-reliability-based-on-user-experience-goals
-
信頼性のための現実的な目標を設定する: 可用性を最大化するコストと複雑性とビジネス要件のバランスを取った適切なサービスレベル目標 (SLO) を決定します。エラーバジェットを利用して機能リリースの速度を管理します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/set-targets
-
リソース冗長性により高可用性システムを構築する: ゾーン間およびリージョン間で重要なコンポーネントを複製することで単一障害点を排除し、ローカライズされた障害時の運用を維持します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/build-highly-available-systems
-
水平スケーラビリティを活用する: システムアーキテクチャを水平スケーリング (インスタンスを追加) に対応させて、負荷変動にシームレスに対応し、全体的なフォールトトレランスを改善します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/horizontal-scalability
-
可観測性を使用して潜在的な障害を検出する: 包括的な監視、ログ記録、アラート システムを実装して、ユーザーに影響を与える前に異常を積極的に検出、診断、対処します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/observability
-
優雅な機能低下のために設計する: 依存関係が障害を起こしたりシステムが極端なストレスを経験したりした場合でも、性能の低下や機能の制限のもとで重要な機能を維持するようにシステムをアーキテクチャします。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/graceful-degradation
-
障害からの回復のためのテストを実行する: 継続的に障害をシミュレートし、自動化された手動の回復手順の有効性を検証することで、システムの復元力への信頼を構築します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/perform-testing-for-recovery-from-failures
-
データ損失からの回復のためのテストを実行する: バックアップおよび復元プロトコルを定期的にテストして、定義されたリカバリータイム目標 (RTO) およびリカバリーポイント目標 (RPO) 内でのデータ破損またはデータ損失からの迅速な回復を確保します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/perform-testing-for-recovery-from-data-loss
-
徹底的なポストモーテムを実施する: 障害を包括的に調査して根本原因を理解した後、再発を防ぐ対策を実施することで、非難のない文化を醸成します。グラウンディング文書: https://docs.cloud.google.com/architecture/framework/reliability/conduct-postmortems
関連する Google Cloud 製品
以下は、信頼性に関連する Google Cloud 製品と機能の 例 です。
- Compute: Compute Engine Managed Instance Groups (MIGs)、Google Kubernetes Engine (GKE)、Cloud Run
- Networking: Cloud Load Balancing、Cloud CDN、Cloud DNS
- Storage and databases: Cloud Storage (マルチリージョン)、Cloud SQL 高可用性、Spanner、Filestore、Firestore
- Operations: Cloud Monitoring、Cloud Logging、Google Cloud Managed Service for Prometheus
- Disaster recovery: Backup and DR Service、Filestore バックアップ
ワークロード評価質問
ワークロードと組織のユーザーの信頼性関連要件と制約を理解するために、適切な質問を提出してください。以下のリストから質問を選択してください。
- 組織はユーザー体験に関連してシステムの信頼性をどのように定義および測定していますか?
- 組織はサービスの信頼性目標の設定にどのようにアプローチしていますか?
- リソース冗長性を通じて高可用性を確保するための組織の戦略は何ですか?
- 組織は水平スケーラビリティをどのように活用してパフォーマンスと信頼性を維持していますか?
- 組織は可観測性 (メトリクス、ログ、トレース) をどのように活用して、洞察を得て潜在的な障害を検出していますか?
- 組織は可観測性データに基づいてアラートをどのように管理して、重大な問題に対する適切なタイムリーな対応を確保しながらアラート疲れを引き起こさないようにしていますか?
- 組織は高負荷または部分的障害の際にシステムが優雅に機能低下できることを確保するためにどのような対策を講じていますか?
- 組織はシステム障害からの回復をテストする頻度と包括性はどの程度ですか (例: リージョンのフェイルオーバー、リリースのロールバック)?
- データ損失からの回復のためのテストに対する組織のアプローチは何ですか?
- 組織はインシデント後のポストモーテムをどのように実施し、活用していますか?
検証チェックリスト
以下のチェックリストを使用して、アーキテクチャと信頼性推奨事項との整合性を評価してください。
- ユーザーに焦点を当てた SLI と SLO が明確に定義されており、積極的に監視されています。
- アーキテクチャはゾーン間またはリージョン間の冗長性を通じて単一障害点を回避します。
- 手動干渉なしに変動する需要に対応するためにオートスケーリングが有効になっています。
- アプリケーションとインフラストラクチャのヘルスチェックが構成されて、自動フェイルオーバーをトリガーします。
- 定期的なバックアップスケジュールが実施され、復元プロセスが定期的にテストされています。
- システムアーキテクチャには、優雅な機能低下をサポートするためのサーキットブレーカー、指数バックオフを伴う再試行、レート制限などのパターンが組み込まれています。
- ゲームデイまたはカオスエンジニアリングの実践が定期的に実施されて、障害回復を検証します。
- 運用インシデントから組織的な学習を確保するために、形式化された非難のないポストモーテムプロセスが存在します。
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- リポジトリ
- google/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/google/skills / ライセンス: Apache-2.0
関連スキル
superpowers-streamer-cli
SuperPowers デスクトップストリーマーの npm パッケージをインストール、ログイン、実行、トラブルシューティングできます。ユーザーが npm から `superpowers-ai` をセットアップしたい場合、メールまたは電話でサインインもしくはアカウント作成を行いたい場合、ストリーマーを起動したい場合、表示されたコントロールリンクを開きたい場合、後で停止したい場合、またはソースコードへのアクセスなしに npm やランタイムの一般的な問題から復旧したい場合に使用します。
catc-client-ops
Catalyst Centerのクライアント操作・監視機能 - 有線・無線クライアントのリスト表示・フィルタリング、MACアドレスによる詳細なクライアント検索、クライアント数分析、時間軸での分析、SSIDおよび周波数帯によるフィルタリング、無線トラブルシューティング機能を提供します。MACアドレスやIPアドレスでのクライアント検索、サイト別やSSID別のクライアント数集計、無線周波数帯の分布分析、Wi-Fi信号の問題調査が必要な場合に活用できます。
ci-cd-and-automation
CI/CDパイプラインの設定を自動化します。ビルドおよびデプロイメントパイプラインの構築または変更時に使用できます。品質ゲートの自動化、CI内のテストランナー設定、またはデプロイメント戦略の確立が必要な場合に活用します。
shipping-and-launch
本番環境へのリリース準備を行います。本番環境へのデプロイ準備が必要な場合、リリース前チェックリストが必要な場合、監視機能の設定を行う場合、段階的なロールアウトを計画する場合、またはロールバック戦略が必要な場合に使用します。
linear-release-setup
Linear Releaseに向けたCI/CD設定を生成します。リリース追跡の設定、LinearのCIパイプライン構築、またはLinearリリースとのデプロイメント連携を実施する際に利用できます。GitHub Actions、GitLab CI、CircleCIなど複数のプラットフォームに対応しています。
tracking-application-response-times
API エンドポイント、データベースクエリ、サービスコール全体にわたるアプリケーションのレスポンスタイムを追跡・最適化できます。パフォーマンス監視やボトルネック特定の際に活用してください。「レスポンスタイムを追跡する」「API パフォーマンスを監視する」「遅延を分析する」といった表現で呼び出せます。