1 - Define

The presented Microsoft Azure Well-Architected Framework recommendations in this guidance include Reliability Stage “1 - Define (Requirements)” and associated resources and their settings.

In this initial stage, the objectives and requirements for system reliability are established. This often involves specifying availability and recovery targets, latency tolerances, criticality classifications, and disaster recovery objectives.

Summary of Recommendations

Recommendation	Category	Impact	State	ARG Query Available
WADF-1 - Ensure the Availability Targets are well defined and communicated across teams working on the Workload	Availability	High	Verified	No
WADF-2 - Ensure the Recovery Targets are well defined and communicated across teams working on the Workload	Disaster Recovery	High	Verified	No

Definitions of states can be found here

Recommendations Details

WADF-1 - 可用性ターゲットが明確に定義され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します

Category: Availability

Impact: High

Recommendation/Guidance

可用性目標 (SLA、SLO、SLI) が明確に定義され、テストされ、監視され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します。

サービスレベルアグリーメント (SLA) は、アプリケーションのパフォーマンスと可用性に関するコミットメントを表す可用性目標です。システム内の個々のコンポーネントのSLAを理解することは、信頼性目標を定義するために不可欠です。依存関係の SLA を知ることは、依存関係を高可用性にし、適切なサポート契約を結ぶときに、追加の支出を正当化する理由にもなります。アプリケーションによって利用される依存関係の可用性目標を理解し、理想的にはアプリケーションターゲットと整合させることも考慮する必要があります。

可用性の期待を理解することは、アプリケーションの全体的な操作を確認するために不可欠です。

たとえば、99.999% のアプリケーションのサービスレベル目標 (SLO) の達成を目指している場合、アプリケーションに必要な固有の運用アクションのレベルは、99.9% の SLO が目標である場合よりもはるかに高くなります。

Resources

WADF-2 - リカバリターゲットが明確に定義され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します

Category: Disaster Recovery

Impact: High

Recommendation/Guidance

復旧目標が明確に定義され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します。考慮すべき 2 つの重要なメトリックは、ディザスターリカバリーに関連する目標復旧時間と目標復旧ポイントです。

目標復旧時間 (RTO) は、インシデント発生後にアプリケーションを使用できない最大許容時間です。RTO が 90 分の場合、障害発生から 90 分以内にアプリケーションを実行状態に復元できる必要があります。RTO が非常に低い場合は、リージョンの停止から保護するために、スタンバイでアクティブ/パッシブ構成を継続的に実行している 2 番目のリージョンデプロイを維持できます。場合によっては、アクティブ/アクティブ構成を展開して、RTO をさらに低く抑えることができます。
目標復旧時点 (RPO) は、障害発生時に許容されるデータ損失の最大期間です。たとえば、データを 1 つのデータベースに格納し、他のデータベースへのレプリケーションを行わず、1 時間ごとにバックアップを実行すると、最大 1 時間分のデータが失われる可能性があります。 RTO と RPO はシステムの非機能要件であり、ビジネス要件によって決定される必要があります。これらの値を導き出すには、リスク評価を実施し、ダウンタイムやデータ損失のコストを明確に理解することをお勧めします。

アプリケーションの可用性を監視および測定することは、アプリケーション全体の正常性と、定義された目標に対する進捗状況を評価するために不可欠です。次のような主要なターゲットを必ず測定および監視してください。

平均故障間隔(MTBF) — 特定のコンポーネントの故障間の平均時間。
平均復旧時間(MTTR) — 障害発生後のコンポーネントの復元にかかる平均時間。

Resources

Target functional and nonfunctional requirements

Azure Databricks

Batch Accounts

Azure Site Recovery

Compute Gallery

Image Templates

Virtual Machine Scale Sets

Virtual Machines

AKS

Container Registry

SQL DB

Cosmos DB

DB for MySQL

DB for PostgreSQL

Redis Cache

Api Management

Event Grid

Event Hub

Service Bus

IoT Hub

Automation Account

Management Groups

Resource Groups

Subscription

Azure Backup

Application Insights

Log Analytics

Resource Health Alerts

Service Health Alerts

Application Gateway

DDoS Protection Plans

ExpressRoute Circuits

ExpressRoute Connection

ExpressRoute Direct

ExpressRoute Gateway

ExpressRoute Traffic Collector

Firewall

Front Door

Load Balancer

Network Security Group

Network Watcher

Private DNS Zones

Private Endpoints

Public Ip

Route Table

Traffic Manager

Virtual Networks

VPN Gateway

Web Application Firewall

Key Vault

Azure High Performance Computing

Azure Virtual Desktop

Azure VMware Solution

SAP on Azure

Azure NetApp Files

Storage Accounts (Blob/Azure Data Lake Storage Gen2)

App Service Plan

SignalR

Web App

1 - Define

Summary of Recommendations

Recommendations Details

WADF-1 - 可用性ターゲットが明確に定義され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します

WADF-2 - リカバリターゲットが明確に定義され、ワークロードに取り組んでいるチーム間で伝達されていることを確認します