データウェアハウスを Databricks レイクハウスに移行する

この記事では、エンタープライズデータウェアハウスを Databricks レイクハウスに置き換える際に考慮すべき考慮事項と注意事項について説明します。エンタープライズデータウェアハウスで定義されているほとんどのワークロード、クエリ、ダッシュボードは、管理者が最初のデータ移行とガバナンス構成を完了すると、最小限のコードリファクタリングで実行できます。データウェアハウジングのワークロードを Databricks に移行するには、データウェアハウジングを排除するのではなく、データエコシステムを統一する必要があります。 Databricksのデータウェアハウジングの詳細については、Databricksのデータウェアハウジングを参照してください。

多くの Apache Spark ワークロードは、ソースシステムからデータウェアハウスにデータを抽出、変換、読み込み (ETL) して、ダウンストリームアナリティクスを強化します。エンタープライズデータウェアハウスをレイクハウスに置き換えると、アナリスト、 data scientists、データエンジニアは同じプラットフォーム内の同じテーブルに対して作業できるため、全体的な複雑さ、メンテナンス要件、総所有コストが削減されます。データレイクハウスとはを参照してください。レイクハウスでデータウェアハウスの設計パターンを適用する方法の概要については、「データウェアハウジングのアーキテクチャ」を参照してください。

レイクハウスへのデータの読み込み

Databricksは、データをレイクハウスに簡単に移行し、多様なデータソースからデータをロードするETLジョブを構成するための多くのツールと機能を提供します。次の記事では、これらのツールとオプションについて説明します。

Databricks Data Intelligence Platform は、エンタープライズデータウェアハウスとどのように異なりますか?

Databricksデータインテリジェンスプラットフォームは、Apache Spark、Unity Catalog、Delta Lake 上に構築されており、アナリティクス、ML、データエンジニアリングのビッグデータワークロードをネイティブにサポートします。すべてのエンタープライズ・データ・システムには、トランザクション保証、インデックス作成と最適化のパターン、およびSQL構文がわずかに異なります。最も大きな違いには、次のようなものがあります。

すべてのトランザクションはテーブルレベルです。データベースレベルのトランザクション、ロック、または保証はありません。
BEGINおよびENDの構文はなく、各ステートメントやクエリーは別々のトランザクションとして実行されます。
3層の名前空間ではcatalog.schema.tableパターンが使用されます。用語databaseとschemaは、従来のApache Spark構文のため同義です。
プライマリ・キー制約と外部キー制約は、情報提供のみを目的としています。制約は、テーブル・レベルでのみ適用できます。「Databricks の制約」を参照してください。
DatabricksとDelta Lakeでサポートされるネイティブデータ型は、ソースシステムとは若干異なる場合があります。数値型に必要な精度は、ターゲットの型を選択する前に明確に示す必要があります。

次の記事では、重要な考慮事項に関する追加のコンテキストを提供します。

レイクハウスへのデータの読み込み​

Databricks Data Intelligence Platform は、エンタープライズデータウェアハウスとどのように異なりますか?​

レイクハウスへのデータの読み込み

Databricks Data Intelligence Platform は、エンタープライズデータウェアハウスとどのように異なりますか?