メインコンテンツまでスキップ

レイクハウス Replay

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、ワークスペースの プレビュー ページからこの機能の有効化を制御できます。Databricksのプレビューを管理するを参照してください。

レイクハウス Replay は、ワークスペースからの読み取り専用ワークロードの小規模なサブセットを、本番運用前に今後のランタイムバージョンに対して自動的にリプレイすることで、将来の Databricks Runtime リリースの品質と安定性を向上させます。ワークロードが本番運用で成功しても、今後のランタイムバージョンで失敗する場合、Databricksがそのバージョンがリリースされる前にこのリグレッションを特定して修正します。これにより、ランタイムのアップグレードがより安全になり、設定、構成、またはメンテナンスは不要です。

Lakehouse Replay はサーバレス コンピュートからのワークロードのみをサンプリングしますが、検出されるリグレッションは、クラシックとサーバレスの両方を含むDatabricks Runtime のすべてのリリースで改善されます。サーバレスで実行することで、Databricksはマネージドコンピュート上でこのテストを実行できるため、リプレイ作業は請求されません。

レイクハウス リプレイがどのように機能するか

レイクハウス Replay は、シャドウ実行を使用して今後のランタイムバージョンをテストします:

  1. ワークロードは通常通り本番運用で実行されています。
  2. レイクハウス Replay は、安全な読み取り専用ワークロードの小規模なサブセットをテスト用に選択します。
  3. レイクハウスリプレイは、選択されたワークロードからのSparkプランを、今後のランタイムバージョンで稼働するDatabricks管理のシャドウコンピュート上で再実行します。
  4. ワークロードが本番運用で成功するが、シャドウ コンピュートで失敗する場合、Databricks がランタイムバージョンをリリースする前に回帰を調査し、解決します。

シャドウ コンピュートは、Databricks ワークスペース内で完全に実行され、本番運用のワークロードやジョブに影響を与えません。

サポートされるワークロード

レイクハウス リプレイは、厳格な安全要件を満たすワークロードのみをリプレイします。

  • サーバレスSQLウェアハウス、サーバレスノートブック、およびジョブからの読み取り専用SQLおよびDataFrameワークロードです。
  • Unity Catalog Delta テーブルのみを読み取るワークロードです。

DataFrameワークロードでは、レイクハウス Replayは本番運用クラスターに送信されたSparkプランのみをリプレイします。前のPythonセルは実行されません。

次のワークロードは除外されます:

  • 書き込み操作
  • ユーザー定義関数(UDF)
  • AI関数などの ai_query
  • 外部データベースにアクセスするフェデレーテッドワークロード
  • 属性ベースまたは役割ベースのアクセス制御 (ABAC/RBAC) を備えたワークロード

データのセキュリティとプライバシー

レイクハウス リプレイは、既存のデータのセキュリティとプライバシー体制を変更しません。

  • データエクスポートなし :レイクハウス リプレイは、不一致を検出するために実行ステータスとランタイム メトリクスのみを比較します。クエリー結果を読み取りも、エクスポートも、保存もしません。
  • 同じ権限で実行 :リプレイされたワークロードは、元の本番運用クエリと同じユーザー ID で実行され、リプレイ時に Unity Catalog の権限を尊重します。
  • 分離された実行 :再生に使用されるDatabricksのシャドウ コンピュートは、本番運用コンピュートから分離されており、外部APIs、データベース、またはその他のワークスペースにアクセスできません。

課金

レイクハウス Replayでは、Databricksが管理するサーバレスコンピュートを使用してリプレイを実行するため、関連するコンピュート料金が顧客に請求されることはありません。再実行されたワークロードは、元のワークロードと同じ権限とストレージパスを使用してデータを読み取るため、最小限のオブジェクトストレージAPIコストが発生する可能性があります。

監査ログ

Lakehouse Replay アクティビティは、lakehouseReplay サービスで監査ログシステムテーブルに記録されます。「レイクハウス リプレイ イベント」を参照してください。

よくある質問

レイクハウス Replay を使用するには、何かを行う必要がありますか?

いいえ。ワークスペースで有効になっている場合、Lakehouse Replay はセットアップ、構成、メンテナンスなしで自動的に実行されます。

Lakehouse Replay は本番運用ワークロードに影響しますか?

シャドウ コンピュートは本番運用コンピュートとは別に実行され、実行中のワークロード、ジョブ スケジュール、またはクエリ パフォーマンスのいずれにも影響しません。

自分のワークロードが再実行されているかどうかを知るにはどうすればよいですか?

再生されたワークロードは、ジョブ実行履歴またはクエリー履歴に表示されません。レイクハウスのリプレイアクティビティは、監査ログシステムテーブルで利用可能です。

ワークロードはどのくらいの頻度で再実行されますか?

サンプリング頻度は確率的で、ワークスペースのトラフィックとワークロードタイプに基づいています。ほとんどのワークロードは、元の実行から1時間以内に再生されます。

リプレイされたワークロードが失敗した場合はどうなりますか?

シャドウコンピュートでワークロードが失敗し、本番運用で成功した場合は、Databricksが調査します。Databricksがその障害を回帰と確認した場合、ランタイムバージョンがリリースされる前にDatabricksによってその問題が解決されます。Databricksでは、追加のコンテキストが必要ない限り、個別の障害を通知いたしません。

Lakehouse Replay はどのような種類の回帰を検出しますか?

レイクハウス リプレイ は実行エラーを検出します。本番運用では成功するものの、今後のランタイムバージョンでは失敗するワークロードです。