データ アプリケーションを Databricks に移行する
この記事では、既存のデータ アプリケーションを Databricks に移行する方法について説明します。 Databricks は、1 つのプラットフォームで多くのソース システムのデータを操作できる統合アプローチを提供します。
プラットフォーム機能の概要については、「 Databricks とは」を参照してください。
ETL ジョブを Databricks に移行する
データの抽出、変換、読み込みに使用される Apache Spark ジョブを、オンプレミスまたはクラウドネイティブの実装から Databricks にわずか数ステップで移行できます。 「 既存の Apache Spark コードを Databricksに適応させる」を参照してください。
Databricks は、事前構成された オープンソース統合、パートナー統合、エンタープライズ製品オファリングを使用して、Spark SQL の機能を拡張します。 ETL ワークロードが SQL または Hive で記述されている場合は、最小限のリファクタリングで Databricks に移行できます。 Databricks SQL オファリングの詳細については、以下を参照してください。
さまざまなソース システムから Databricks に移行する具体的な手順については、「 ETL パイプラインを Databricks に移行する」を参照してください。
エンタープライズデータウェアハウスをレイクハウスに置き換える
Databricks は、レイクハウスに格納されているデータを中心にワークロードを調整する場合に最適な価値とパフォーマンスを提供します。 多くのエンタープライズデータスタックには、データレイクとエンタープライズデータウェアハウスの両方が含まれており、組織はこれらのシステムとデータの同期を維持するために複雑なETLワークフローを作成しています。 レイクハウスを使用すると、データレイクに保存されている同じデータを、通常は別のデータウェアハウスに依存するクエリーやシステムで使用できます。 レイクハウスの詳細については、「 データレイクハウスとは」を参照してください。 Databricks 上のデータウェアハウジングの詳細については、「 Databricks 上のデータウェアハウジングとは」を参照してください。
エンタープライズデータウェアハウスからレイクハウスへの移行には、通常、データアーキテクチャとワークフローの複雑さを軽減する必要がありますが、この作業を完了する際に留意すべき注意点とベストプラクティスがいくつかあります。 「 Databricks レイクハウスにデータウェアハウスを移行する」を参照してください。
機械学習、データサイエンス、アナリティクスのワークロードを統合する
lakehouse は、テーブル クエリーまたはファイル パスを介してクラウドベースのデータ ファイルへの最適化されたアクセスを提供するため、データの 1 つのコピーで 機械学習、データ サイエンス、およびアナリティクスを実行できます。 Databricks を使用すると、オープンソース ツールとプロプライエタリ ツールの両方からワークロードを簡単に移動でき、アナリストやデータサイエンティストが使用する多くの オープンソース ライブラリの更新バージョンを維持できます。
Jupyter ノートブックの Pandas ワークロードは、Databricks Git フォルダーを使用して同期し、実行できます。 Databricks は、すべての Databricks Runtime バージョンでPandasのネイティブ サポートを提供し、 Databricks Runtime for Machine Learningで多くの人気のある ML およびディープラーニング ライブラリを構成します。 Git を使用してローカル ワークロードとGit フォルダー内のワークスペース ファイルを同期する場合は、ローカル環境に存在するデータとカスタム ライブラリに同じ相対パスを使用できます。
注
デフォルトでは、Databricks は Databricks Git フォルダーと同期された Jupyter ノートブックの.ipynb
拡張機能を維持しますが、 UI でインポートされると、Jupyter ノートブックは Databricks ノートブックに自動的に変換されます。 Databricks ノートブックは.py
拡張子で保存されるため、Git リポジトリ内で Jupyter ノートブックと共存できます。