【Google Cloud】インフラ設計の基礎：要件定義からSLI/SLO/SLAの実践まで

はじめに

学習の一環として、公式トレーニングコース「信頼性に優れた Google Cloud インフラストラクチャ: 設計とプロセス」を受講したのですが、インフラ設計の土台となる「要件定義」や「SLI / SLO / SLA」の考え方が非常に実践的で、実務にもそのまま活かせる内容でした。

今回は備忘録も兼ねて、クラウドアーキテクトがシステム設計を始める前に考えるべきことと、PCA試験でも頻出となる「SLO設計のベストプラクティス」についてまとめます。

クラウドアーキテクトは、要件を聞いてすぐに「じゃあデータベースはSpannerで…」と技術選定に入るべきではありません。まずはビジネス要件とユーザー要件を正確に整理・分析することが求められます。

適切な設計のスタートラインとして、以下の5点を確認します。

要件を具体化するため、システムの利用目的（ユーザーロール）を深掘りし、「ペルソナ（仮想の人物像）」を設定します。これにより「このユーザーならどう使うか？」という開発チーム内のブレを防ぎます。

そして、要件を 「[役割] として、[目的] のために、[何か] をしたい」 というシンプルな「ユーザーストーリー」に落とし込みます。良いストーリーかどうかは、以下の 「INVEST基準」 で評価します。

💡 PCA試験のポイント 試験問題は、まさにこの「ユーザーストーリー」の形式で出題されます。「カレンはスマホで直前に旅行を予約したい」というストーリーから、「モバイル向けAPIと、Firestoreのような高速なNoSQLが必要だ」と連想するトレーニングが非常に有効です。

要件が固まりシステムが稼働したあと、それが「本当に目標を満たしているか」を測定するための3大指標です。SRE（サイト信頼性エンジニアリング）の文脈でも非常に重要です。

アーキテクトとして絶対に押さえておくべき原則があります。それは、「SLAのしきい値は、SLOよりも必ず緩く設定する」 ということです。

例えば、運用の目標（SLO）を「200ms以内」とした場合、顧客との契約（SLA）は「300msを超えたら補償」と設定します。この差分がバッファ（猶予）となり、目標を少し下回ったからといって即座に契約違反・大損害になるリスクを回避できます。

ユーザーの本当の体験（UX）を監視する際、「レイテンシの平均値（Average）」を見てはいけません。一部のユーザーが体験している極端な遅延や、一瞬のスパイクが薄まって見えなくなってしまうからです。必ず 「99%パーセンタイル（上位1%の最悪のケース）」 などの統計手法を使用します。

ケーススタディ（オンライン旅行ポータル）の模範解答から見えてきた、クラウドアーキテクトとしての「コストとパフォーマンスの最適化思考」をまとめます。

全てのシステムを 99.999% (ファイブナイン) で動かそうとすると、インフラコストが天文学的に跳ね上がります。

このように、アクター（誰が使うか）に合わせて目標にメリハリをつけるのが正解です。

要件に対して「常に最高速」を求めるのではなく、現実的なアーキテクチャを選択します。

以上の学びから、PCA試験の選択肢を選ぶ際の明確な基準が見えてきました。

インフラ設計の根幹は「ビジネスの現実とコストのバランスを取ること」だと改めて実感しました。同じようにPCA取得を目指している方の参考になれば幸いです！

Tags: GoogleCloud, GCP, PCA, インフラ設計, SRE, SLO