レイクハウス Replay
ベータ版
この機能はベータ版です。ワークスペース管理者は、ワークスペースの プレビュー ページからこの機能の有効化を制御できます。Databricksのプレビューを管理するを参照してください。
レイクハウス Replay は、ワークスペースからの読み取り専用ワークロードの小規模なサブセットを、本番運用前に今後のランタイムバージョンに対して自動的にリプレイすることで、将来の Databricks Runtime リリースの品質と安定性を向上させます。ワークロードが本番運用で成功しても、今後のランタイムバージョンで失敗する場合、Databricksがそのバージョンがリリースされる前にこのリグレッションを特定して修正します。これにより、ランタイムのアップグレードがより安全になり、設定、構成、またはメンテナンスは不要です。
Lakehouse Replay はサーバレス コンピュートからのワークロードのみをサンプリングしますが、検出されるリグレッションは、クラシックとサーバレスの両方を含むDatabricks Runtime のすべてのリリースで改善されます。サーバレスで実行することで、Databricksはマネージドコンピュート上でこのテストを実行できるため、リプレイ作業は請求されません。
レイクハウス リプレイがどのように機能するか
レイクハウス Replay は、シャドウ実行を使用して今後のランタイムバージョンをテストします:
- ワークロードは通常通り本番運用で実行されています。
- レイクハウス Replay は、安全な読み取り専用ワークロードの小規模なサブセットをテスト用に選択します。
- レイクハウスリプレイは、選択されたワークロードからのSparkプランを、今後のランタイムバージョンで稼働するDatabricks管理のシャドウコンピュート上で再実行します。
- ワークロードが本番運用で成功するが、シャドウ コンピュートで失敗する場合、Databricks がランタイムバージョンをリリースする前に回帰を調査し、解決します。
シャドウ コンピュートは、Databricks ワークスペース内で完全に実行され、本番運用のワークロードやジョブに影響を与えません。
サポートされるワークロード
レイクハウス リプレイは、厳格な安全要件を満たすワークロードのみをリプレイします。
- サーバレスSQLウェアハウス、サーバレスノートブック、およびジョブからの読み取り専用SQLおよびDataFrameワークロードです。
- Unity Catalog Delta テーブルのみを読み取るワークロードです。
DataFrameワークロードでは、レイクハウス Replayは本番運用クラスターに送信されたSparkプランのみをリプレイします。前のPythonセルは実行されません。
次のワークロードは除外されます:
- 書き込み操作
- ユーザー定義関数(UDF)
- AI関数などの
ai_query - 外部データベースにアクセスするフェデレーテッドワークロード
- 属性ベースまたは役割ベースのアクセス制御 (ABAC/RBAC) を備えたワークロード
データのセキュリティとプライバシー
レイクハウス リプレイは、既存のデータのセキュリティとプライバシー体制を変更しません。
- データエクスポートなし :レイクハウス リプレイは、不一致を検出するために実行ステータスとランタイム メトリクスのみを比較します。クエリー結果を読み取りも、エクスポートも、保存もしません。
- 同じ権限で実行 :リプレイされたワークロードは、元の本番運用クエリと同じユーザー ID で実行され、リプレイ時に Unity Catalog の権限を尊重します。
- 分離された実行 :再生に使用されるDatabricksのシャドウ コンピュートは、本番運用コンピュートから分離されており、外部APIs、データベース、またはその他のワークスペースにアクセスできません。
課金
レイクハウス Replayでは、Databricksが管理するサーバレスコンピュートを使用してリプレイを実行するため、関連するコンピュート料金が顧客に請求されることはありません。再実行されたワークロードは、元のワークロードと同じ権限とストレージパスを使用してデータを読み取るため、最小限のオブジェクトストレージAPIコストが発生する可能性があります。
監査ログ
Lakehouse Replay アクティビティは、lakehouseReplay サービスで監査ログシステムテーブルに記録されます。「レイクハウス リプレイ イベント」を参照してください。
よくある質問
- レイクハウス リプレイを使用するには、何かする必要がありますか?
- レイクハウス Replay は本番運用のワークロードに影響しますか?
- ワークロードがリプレイされているかどうかを知るにはどうすればよいですか?
- ワークロードはどのくらいの頻度でリプレイされますか?
- リプレイされたワークロードが失敗した場合はどうなりますか?
- Lakehouse Replay はどのような種類の回帰を検出しますか?
レイクハウス Replay を使用するには、何かを行う必要がありますか?
いいえ。ワークスペースで有効になっている場合、Lakehouse Replay はセットアップ、構成、メンテナンスなしで自動的に実行されます。
Lakehouse Replay は本番運用ワークロードに影響しますか?
シャドウ コンピュートは本番運用コンピュートとは別に実行され、実行中のワークロード、ジョブ スケジュール、またはクエリ パフォーマンスのいずれにも影響しません。
自分のワークロードが再実行されているかどうかを知るにはどうすればよいですか?
再生されたワークロードは、ジョブ実行履歴またはクエリー履歴に表示されません。レイクハウスのリプレイアクティビティは、監査ログシステムテーブルで利用可能です。
ワークロードはどのくらいの頻度で再実行されますか?
サンプリング頻度は確率的で、ワークスペースのトラフィックとワークロードタイプに基づいています。ほとんどのワークロードは、元の実行から1時間以内に再生されます。
リプレイされたワークロードが失敗した場合はどうなりますか?
シャドウコンピュートでワークロードが失敗し、本番運用で成功した場合は、Databricksが調査します。Databricksがその障害を回帰と確認した場合、ランタイムバージョンがリリースされる前にDatabricksによってその問題が解決されます。Databricksでは、追加のコンテキストが必要ない限り、個別の障害を通知いたしません。
Lakehouse Replay はどのような種類の回帰を検出しますか?
レイクハウス リプレイ は実行エラーを検出します。本番運用では成功するものの、今後のランタイムバージョンでは失敗するワークロードです。