workspaces
Summary
Details
Databricks ランタイムのバージョンが最新ではないか、LTS バージョンではありません
Impact: Medium Category: Governance PG Verified: Verified
Description:
Databricks では、安定性とサポートを強化するために、ランタイムの最新バージョンまたは LTS バージョンにワークロードを移行することをお勧めします。ランタイム 11.3 LTS 以降の場合は、最新の 12.x バージョンに直接移行します。以下の場合は、移行ガイドに従って、まず 11.3 LTS に移行し、次に最新の 12.x バージョンに移行します。
Potential Benefits:
Enhanced stability and support
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
Databricks プールを使用する
Impact: High Category: Scalability PG Verified: Verified
Description:
Databricks は VM を事前にプロビジョニングしてプールするため、クラスターの開始または拡張時のプロビジョニング エラーのリスクが軽減され、信頼性が向上します。
Potential Benefits:
Reduces provisioning errors
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
ワーカー VM タイプとドライバー タイプには SSD でバックアップされた VM を使用する
Impact: Medium Category: Scalability PG Verified: Verified
Description:
速度と信頼性を向上させるために、Premium VM の HDD を SSD にアップグレードします。プレミアム SSD は IO 負荷の高いアプリを強化します。標準 SSD はコストとパフォーマンスのバランスが取れています。クリティカルなワークロードに最適で、アップグレードすると短時間の再起動で接続が向上します。重要な VM を考慮する
Potential Benefits:
Faster, reliable VM performance
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
バッチ ワークロードの自動スケーリングを有効にする
Impact: High Category: Scalability PG Verified: Verified
Description:
自動スケーリングは、ワークロードの需要に基づいてクラスターのサイズを自動的に調整し、コストとパフォーマンスの面で多くのユースケースにメリットをもたらします。これには、自動スケーリングをいつどのように最適に利用するかについてのガイダンスが含まれています。ストリーミングの場合は、自動スケーリングを備えた Delta Live Tables をお勧めします。
Potential Benefits:
Cost and performance optimization
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
SQL ウェアハウスの自動スケーリングを有効にする
Impact: High Category: Scalability PG Verified: Verified
Description:
SQL ウェアハウスのスケーリング パラメーターは、クエリを分散するためのクラスターの最小数と最大数を定義します。デフォルトでは、1 に設定されています。クラスター数を増やすと、より多くの同時ユーザーに効果的に対応できます。
Potential Benefits:
Improves concurrency and efficiency
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
Delta Live Tables の強化された自動スケーリングを使用する
Impact: Medium Category: Scalability PG Verified: Verified
Description:
Databricks の強化された自動スケーリングは、パイプラインのデータ処理レイテンシーへの影響を最小限に抑えながら、ワークロード量に基づいてクラスター リソースを自動的に割り当てることでクラスターの使用率を最適化します。
Potential Benefits:
Optimized resource use and minimal latency
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
自動ジョブ終了が有効になっています。ユーザー定義のローカル プロセスがないことを確認してください。
Impact: Medium Category: High Availability PG Verified: Verified
Description:
クラスターのリソースを節約するには、クラスターを終了して、将来の再利用またはジョブの自動開始に備えてその構成を保存します。クラスターは非アクティブな状態になった後に自動終了できますが、これは Spark ジョブのみを追跡し、ローカル プロセスは追跡しません。Spark ジョブが終了した後もまだ実行されている可能性があります。
Potential Benefits:
Saves cluster resources, avoids idle use
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
ロギングクラスターのログ配信を有効にする
Impact: Medium Category: Monitoring and Alerting PG Verified: Verified
Description:
Databricks クラスターを作成するときに、Spark ドライバー、ワーカー ノード、およびイベントのログ配信場所を設定できます。ログは 5 分ごとに配信され、1 時間ごとにアーカイブされます。クラスターが終了すると、その時点までに生成されたすべてのログが配信されることが保証されます。
Potential Benefits:
Improved troubleshooting and audit
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
信頼性を高めるために Delta Lake を使用する
Impact: High Category: High Availability PG Verified: Verified
Description:
Delta Lake は、ACID トランザクション、スキーマの適用、およびスケーラブルなメタデータ処理によりデータ レイクの信頼性を強化するオープン ソース ストレージ形式です。
Potential Benefits:
Enhances data reliability and processing
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
フォトン加速を使用する
Impact: Low Category: High Availability PG Verified: Verified
Description:
Databricks Lakehouse の Apache Spark は、失敗したタスクを自動的に再スケジュールすることで復元力のある分散データ処理を保証し、ネットワークの問題や取り消された VM などの外部問題の解決に役立ちます。
Potential Benefits:
Boosts speed and reliability for Spark tasks
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
Databricks Auto Loader または Delta Live Tables を使用して、無効なデータまたは不適合なデータを自動的にレスキューします。
Impact: Low Category: Business Continuity PG Verified: Verified
Description:
無効なデータまたは不適合なデータは、特定のデータ形式に応じてワークロードをクラッシュさせる可能性があります。ベスト プラクティスでは、取り込み時にそのようなデータをフィルタリングしてエンドツーエンドの復元力を向上させ、データの損失や欠落がないようにすることが推奨されています。
Potential Benefits:
Enhanced data resilience and integrity
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
ジョブの自動再試行と終了を構成する
Impact: High Category: High Availability PG Verified: Verified
Description:
Databricks と MLflow を使用して、ジョブのスケジュール、再試行、自動スケーリングのためにモデルを Spark UDF としてデプロイします。モデル サービングは、スケーラブルなインフラストラクチャを提供し、MLflow を使用してモデルを処理し、Databricks クラウドで管理されるサーバーレス コンピューティングを使用して REST API 経由でモデルを提供します。
Potential Benefits:
Enhanced reliability and autoscaling
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
スケーラブルな運用グレードのモデル サービス インフラストラクチャを使用する
Impact: High Category: Scalability PG Verified: Verified
Description:
Databricks と MLflow を使用してモデルを Apache Spark UDF としてデプロイし、ジョブのスケジュール、再試行、自動スケーリングなどのメリットを活用します。
Potential Benefits:
Enhances scalability and reliability
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
階層化されたストレージ アーキテクチャを使用する
Impact: Medium Category: High Availability PG Verified: Verified
Description:
階層化されたアーキテクチャを作成してデータを管理し、階層全体のデータ品質を向上させます。取り込まれたソース データの生のレイヤーから開始し、クレンジングおよび洗練されたデータの厳選されたレイヤーを続け、セキュリティとパフォーマンスに重点を置いてビジネス ニーズに対応した最終レイヤーで終了します。
Potential Benefits:
Enhances data quality and trust
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
データの冗長性を削減してデータの整合性を向上させる
Impact: Low Category: Business Continuity PG Verified: Verified
Description:
データをコピーすると、冗長性、整合性、系統、アクセスの問題が発生し、レイクハウスのデータ品質に影響を与えます。一時コピーは俊敏性とイノベーションには役立ちますが、運用データがサイロ化して問題が発生し、データのマスター ステータスと最新性が疑問視される可能性があります。
Potential Benefits:
Enhanced data integrity and quality
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
スキーマをアクティブに管理する
Impact: Medium Category: Other Best Practices PG Verified: Verified
Description:
制御されていないスキーマ変更は、無効なデータやジョブの失敗につながる可能性があります。 Databricks は、取り込み中の不正なレコードを防止する Delta Lake と、新しい列を検出し、データの整合性を維持するためのスキーマの進化をサポートする Auto Loader を通じてスキーマを検証および適用します。
Potential Benefits:
Prevents invalid data and job failures
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
使用上の制約とデータの期待
Impact: Low Category: Business Continuity PG Verified: Verified
Description:
デルタ テーブルは SQL 制約を使用してデータ品質を自動的に検証し、違反がある場合はエラーをトリガーします。デルタ ライブ テーブルは、Python または SQL を利用してデータ品質に対する期待を定義し、レコード障害に対するアクションを管理し、データの整合性とコンプライアンスを確保することでこれを強化します。
Potential Benefits:
Ensures data quality and integrity
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
定期的なバックアップを作成する
Impact: Low Category: Disaster Recovery PG Verified: Verified
Description:
障害から回復するには、定期的なバックアップが必要です。 Databricks Labs プロジェクトの移行により、管理者は Databricks CLI/API を使用してワークスペース アセットをエクスポートしてバックアップを作成できるようになります。これらのバックアップは、ワークスペースの復元または移行に役立ちます。
Potential Benefits:
Ensures data recovery and migration
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
構造化ストリーミング クエリの失敗から回復する
Impact: High Category: High Availability PG Verified: Verified
Description:
構造化ストリーミングは、ストリーミング クエリにおけるフォールト トレランスとデータの一貫性を保証します。 Azure Databricks ワークフローを使用すると、失敗後に自動的に再開し、中断したところから正確に再開するようにクエリを設定できます。
Potential Benefits:
Fault-tolerance and auto-restart for queries
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
デルタタイムトラベルに基づいて ETL ジョブをリカバリする
Impact: Medium Category: Disaster Recovery PG Verified: Verified
Description:
徹底的なテストにもかかわらず、実稼働ジョブが失敗したり、予期しないデータが生成されたりする可能性があります。場合によっては、問題の特定とパイプラインの修正後にジョブを追加することで修復が行われることがあります。
Potential Benefits:
Easy rollback and fix for ETL jobs
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
Databricks ワークフローと組み込みのリカバリを使用する
Impact: Low Category: Disaster Recovery PG Verified: Verified
Description:
Databricks ワークフローは、問題調査のためのマトリックス ビューを提供することで、マルチタスク ジョブでの効率的なエラー回復を可能にします。修正を適用すると、失敗した依存タスクのみを対象とした修復実行が開始され、成功した結果が維持されるため、時間とコストを節約できます。
Potential Benefits:
Saves time and money with smart recovery
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
災害復旧パターンを構成する
Impact: High Category: Disaster Recovery PG Verified: Preview
Description:
クラウド ネイティブなデータ分析プラットフォームである Azure Databricks にとって、ディザスター リカバリー パターンの実装は不可欠であり、ハリケーンや地震などの災害によって引き起こされるまれな地域的な停止時でも、データ チームのアクセスを確保します。
Potential Benefits:
Ensures service continuity during disasters
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
導入とワークロードを自動化する
Impact: High Category: Other Best Practices PG Verified: Preview
Description:
Databricks Terraform プロバイダーは、Azure Databricks ワークスペースとクラウド インフラストラクチャを柔軟かつ強力に管理します。
Potential Benefits:
Efficient, reliable automation
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
監視、アラート、ロギングを設定する
Impact: High Category: Monitoring and Alerting PG Verified: Preview
Description:
Databricks Terraform プロバイダーは、Azure Databricks ワークスペースとクラウド インフラストラクチャを管理するための柔軟で強力なツールです。
Potential Benefits:
Enhanced reliability and automation
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
ワークスペースを個別のサブスクリプションにデプロイする
Impact: High Category: Scalability PG Verified: Preview
Description:
お客様は多くの場合、自然にワークスペースをチームまたは部門ごとに分割します。ただし、パーティション分割する場合は、Azure サブスクリプションと ADB ワークスペースの制限も考慮することが重要です。
Potential Benefits:
Enhanced limits management, team separation
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
各ワークスペースを独自の Vnet に分離する
Impact: High Category: Scalability PG Verified: Preview
Description:
VNet ごとに Databricks ワークスペースを 1 つだけデプロイすることは、ADB の分離モデルと一致します。
Potential Benefits:
Enhanced security and resource isolation
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
本番データをデフォルトのDBFSフォルダに保存しないでください
Impact: High Category: High Availability PG Verified: Preview
Description:
セキュリティとデータの可用性に関する懸念により、各 Azure Databricks ワークスペースには、運用データではなく、ライブラリや Init スクリプトなどのシステム レベルのアーティファクト向けに設計された既定の DBFS が付属しています。
Potential Benefits:
Enhanced security, data protection
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
重要な運用ワークロードには Azure Spot VM を使用しないでください
Impact: High Category: High Availability PG Verified: Preview
Description:
Azure スポット VM は、高可用性と信頼性を必要とする重要な運用ワークロードには適していません。これらはフォールト トレラントなタスク向けであり、Azure が容量を必要とする場合は 30 秒前の通知で削除できますが、SLA 保証はありません。
Potential Benefits:
Ensures high reliability for production
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development
ワークスペースの地域分離を評価する
Impact: High Category: High Availability PG Verified: Preview
Description:
ワークスペースをリージョン内のコントロール プレーンに移動して、リージョンの分離を強化します。ワークスペース URL と nslookup を使用して、現在のコントロール プレーン領域を特定します。 CNAME のリージョンがワークスペースのリージョンと異なり、リージョン内コントロールが利用可能な場合は、以下に提供されるツールを使用した移行を検討してください。
Potential Benefits:
Improves resilience and data sovereignty
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// cannot-be-validated-with-arg
代替 VM SKU を定義する
Impact: Medium Category: Personalized PG Verified: Preview
Description:
Azure Databricks の計画には、容量の問題に対する VM SKU のスワップ戦略を含める必要があります。 VM はリージョナルであり、「CLOUD PROVIDER」エラーによって示される割り当てエラーが発生する可能性があります。
Potential Benefits:
Ensures service availability
Learn More:
ARG Query:
Click the Azure Resource Graph tab to view the query
// under-development