データアプリケーションを Databricks に移行する

この記事では、既存のデータアプリケーションを Databricks に移行する方法の概要について説明します。 Databricks は、1 つのプラットフォーム上で多数のソースシステムのデータを操作できる統一されたアプローチを提供します。

プラットフォーム機能の概要については、「 Databricks とは」を参照してください。

ETL ジョブを Databricks に移行する

オンプレミスの実装またはクラウドネイティブの実装からデータの抽出、変換、読み込みに使用する Apache Spark ジョブを Databricks に、わずか数ステップで移行できます。「既存の Apache Spark コードを Databricks に適応させる」を参照してください。

Databricks は、事前設定されたオープンソース統合、パートナー統合、エンタープライズ製品の提供により、Spark SQL の機能を拡張します。 ETL ワークロードが SQL または Hive で記述されている場合は、最小限のリファクタリングで Databricks に移行できます。 Databricks SQL オファリングの詳細については、以下をご覧ください。

さまざまなソースシステムから Databricks への移行に関する具体的な手順については、「 ETL パイプラインを Databricks に移行する」を参照してください。

エンタープライズデータウェアハウスをレイクハウスに置き換える

Databricks は、レイクハウスに格納されたデータを中心にワークロードが整合する場合に最適な価値とパフォーマンスを提供します。多くのエンタープライズデータスタックには、データレイクとエンタープライズデータウェアハウスの両方が含まれており、組織はこれらのシステムとデータの同期を維持するために複雑な ETL ワークフローを作成しています。レイクハウスを使用すると、通常は別のデータウェアハウスに依存するクエリやシステム間で、データレイクに保存されている同じデータを使用できます。レイクハウスの詳細については、「データレイクハウスとは」を参照してください。 Databricksのデータウェアハウジングの詳細については、「データウェアハウジングのアーキテクチャ」を参照してください。

エンタープライズデータウェアハウスからレイクハウスへの移行には、通常、データアーキテクチャとワークフローの複雑さを軽減する必要がありますが、この作業を完了する際に留意すべきいくつかの注意点とベストプラクティスがあります。「データウェアハウスを Databricks レイクハウスに移行する」を参照してください。

この移行の一環として、T-SQL、Snowflake、Oracle などの SQL 方言から ANSI SQL へレガシー SQL を変換するには、Lakebridge Agentic Converter を使用します。Lakebridge Agentic Converter を使用して SQL を変換を参照してください。

ML、データサイエンス、アナリティクスのワークロードを統合

レイクハウスでは、テーブルクエリまたはファイルパスを使用してクラウドベースのデータファイルへのアクセスが最適化されているため、データの 1 つのコピーに対して ML、データサイエンス、およびアナリティクスを実行できます。 Databricks により、オープンソースツールとプロプライエタリツールの両方からワークロードを簡単に移動でき、アナリストやデータサイエンティストが使用する多くのオープンソースライブラリの更新バージョンが維持されます。

Jupyter ノートブックのPandasワークロードは、Databricks Gitフォルダーを使用して同期および実行できます。DatabricksPandasDatabricks Runtimeは、すべてのバージョンでをネイティブにサポートし、MLDatabricks Runtime for Machine Learning で多くの一般的なおよびディープラーニングライブラリを構成します。Git と Git フォルダー内のワークスペースファイルを使用してローカルワークロードを同期する場合は、ローカル環境に存在するデータとカスタムライブラリに同じ相対パスを使用できます。

注記

デフォルトでは、Databricks は Databricks Git フォルダーと同期された Jupyter ノートブックの .ipynb 23 拡張機能を保持しますが、 UI でインポートすると、Jupyter ノートブックを Databricks ノートブックに自動的に変換します。 Databricks ノートブックは .py 拡張機能で保存されるため、Git リポジトリで Jupyter ノートブックと並行して配置できます。

ETL ジョブを Databricks に移行する​

エンタープライズデータウェアハウスをレイクハウスに置き換える​

ML、データサイエンス、アナリティクスのワークロードを統合​

ETL ジョブを Databricks に移行する

エンタープライズデータウェアハウスをレイクハウスに置き換える

ML、データサイエンス、アナリティクスのワークロードを統合