データアプリケーションを Databricks に移行する
この記事では、既存のデータ アプリケーションを Databricks に移行する方法の概要について説明します。 Databricks は、1 つのプラットフォーム上で多数のソースシステムのデータを操作できる統一されたアプローチを提供します。
プラットフォーム機能の概要については、「 Databricks とは」を参照してください。
ETL ジョブを Databricks に移行する
オンプレミスの実装またはクラウドネイティブの実装からデータの抽出、変換、読み込みに使用する Apache Spark ジョブを Databricks に、わずか数ステップで移行できます。 「既存の Apache Spark コードを Databricks に適応させる」を参照してください。
Databricks は、事前設定されたオープンソース統合、パートナー統合、エンタープライズ製品の提供により、Spark SQL の機能を拡張します。 ETL ワークロードが SQL または Hive で記述されている場合は、最小限のリファクタリングで Databricks に移行できます。 Databricks SQL オファリングの詳細については、以下をご覧ください。
さまざまなソース システムから Databricks への移行に関する具体的な手順については、「 ETL パイプラインを Databricks に移行する」を参照してください。
エンタープライズデータウェアハウスをレイクハウスに置き換える
Databricks は、レイクハウスに格納されたデータを中心にワークロードが整合する場合に最適な価値とパフォーマンスを提供します。 多くのエンタープライズデータスタックには、データレイクとエンタープライズデータウェアハウスの両方が含まれており、組織はこれらのシステムとデータの同期を維持するために複雑な ETL ワークフローを作成しています。 レイクハウスを使用すると、通常は別のデータウェアハウスに依存するクエリやシステム間で、データレイクに保存されている同じデータを使用できます。 レイクハウスの詳細については、「 データレイクハウスとは」を参照してください。 Databricksのデータウェアハウジングの詳細については、「Databricksのデータウェアハウジングとは」を参照してください。
エンタープライズデータウェアハウスからレイクハウスへの移行には、通常、データアーキテクチャとワークフローの複雑さを軽減する必要がありますが、この作業を完了する際に留意すべきいくつかの注意点とベストプラクティスがあります。 「 データウェアハウスを Databricks レイクハウスに移行する」を参照してください。
ML、データサイエンス、アナリティクスのワークロードを統合
レイクハウスでは、テーブル クエリまたはファイル パスを使用してクラウドベースのデータ ファイルへのアクセスが最適化されているため、データの 1 つのコピーに対して ML、データサイエンス、およびアナリティクスを実行できます。 Databricks により、オープンソースツールとプロプライエタリツールの両方からワークロードを簡単に移動でき、アナリストや data scientistsが使用する多くのオープンソースライブラリの更新バージョンが維持されます。
Jupyter ノートブックのPandasワークロードは、Databricks Gitフォルダーを使用して同期および実行できます。DatabricksPandasDatabricks Runtimeは、 すべてのバージョンで をネイティブにサポート し、MLDatabricks Runtime for Machine Learning で多くの一般的な およびディープラーニング ライブラリを構成します。Git と Git フォルダー内のワークスペース ファイルを使用してローカル ワークロードを同期する場合は、ローカル環境に存在するデータとカスタム ライブラリに同じ相対パスを使用できます。
デフォルトでは、Databricks は Databricks Git フォルダーと同期された Jupyter ノートブックの .ipynb
23 拡張機能を保持しますが、 UI でインポートすると、Jupyter ノートブックを Databricks ノートブックに自動的に変換します。 Databricks ノートブックは .py
拡張機能で保存されるため、Git リポジトリで Jupyter ノートブックと並行して配置できます。