データウェアハウスを Databricks レイクハウスに移行する
この記事では、エンタープライズ データウェアハウスを Databricks レイクハウスに置き換える際に考慮すべき考慮事項と注意事項について説明します。 エンタープライズ データウェアハウスで定義されているほとんどのワークロード、クエリ、ダッシュボードは、管理者が最初のデータ移行とガバナンス構成を完了すると、最小限のコード リファクタリングで実行できます。 データウェアハウジングのワークロードを Databricks に移行するには、データウェアハウジングを排除するのではなく、データエコシステムを統一する必要があります。 Databricksのデータウェアハウジングの詳細については、「Databricksのデータウェアハウジングとは」を参照してください。
多くの Apache Spark ワークロードは、ソース システムからデータウェアハウスにデータを抽出、変換、読み込み (ETL) して、ダウンストリーム アナリティクスを強化します。 エンタープライズデータウェアハウスをレイクハウスに置き換えると、アナリスト、 data scientists、データエンジニアは同じプラットフォーム内の同じテーブルに対して作業できるため、全体的な複雑さ、メンテナンス要件、総所有コストが削減されます。 データレイクハウスとはを参照してください。Databricksのデータウェアハウジングの詳細については、「Databricksのデータウェアハウジングとは」を参照してください。
レイクハウスへのデータの読み込み
Databricksは、データをレイクハウスに簡単に移行し、多様なデータソースからデータをロードするETLジョブを構成するための多くのツールと機能を提供します。次の記事では、これらのツールとオプションについて説明します。
- Parquet のデータレイクを Delta Lakeに移行する
- レイクハウスフェデレーションとは何ですか?
- Databricks Partner Connectとは何ですか?
- Databricks レイクハウスにデータを取り込む
- DLTとは?
Databricks Data Intelligence Platform は、エンタープライズデータウェアハウスとどのように異なりますか?
Databricksデータインテリジェンスプラットフォームは、Apache Spark、Unity Catalog、Delta Lake 上に構築されており、アナリティクス、ML、 データエンジニアリングのビッグデータ ワークロードをネイティブにサポートします。 すべてのエンタープライズ・データ・システムには、トランザクション保証、インデックス作成と最適化のパターン、およびSQL構文がわずかに異なります。 最も大きな違いには、次のようなものがあります。
- すべてのトランザクションはテーブルレベルです。データベースレベルのトランザクション、ロック、または保証はありません。
BEGIN
およびEND
の構文はなく、各ステートメントやクエリーは別々のトランザクションとして実行されます。- 3層の名前空間では
catalog.schema.table
パターンが使用されます。用語database
とschema
は、従来のApache Spark構文のため同義です。 - プライマリ・キー制約と外部キー制約は、情報提供のみを目的としています。 制約は、テーブル・レベルでのみ適用できます。 「Databricks の制約」を参照してください。
- DatabricksとDelta Lakeでサポートされるネイティブデータ型は、ソースシステムとは若干異なる場合があります。数値型に必要な精度は、ターゲットの型を選択する前に明確に示す必要があります。
次の記事では、重要な考慮事項に関する追加のコンテキストを提供します。