クラウドオブジェクトストレージからのデータの取り込み

この記事では、クラウド オブジェクト ストレージからの増分インジェストを構成する方法について説明します。

データ追加UI

データの追加UIを使用して、クラウドオブジェクトストレージ内のデータからマネージドテーブルを作成する方法については、「Unity Catalog外部ロケーションを使用したデータの読み込み」を参照してください。

ノートブックまたは SQL エディター

このセクションでは、ノートブックまたは Databricks SQL エディターを使用して、クラウド オブジェクト ストレージからの増分インジェストを構成するためのオプションについて説明します。

Auto Loader

Auto Loaderは、クラウドストレージに到着する新しいデータファイルをインクリメンタルかつ効率的に処理します。追加の設定は必要ありません。Auto Loaderは cloudFiles という構造化ストリーミング・ソースを提供します。クラウドファイルストレージ上の入力ディレクトリパスが与えられると、 cloudFiles のソースは到着する新しいファイルを自動的に処理します。そのディレクトリ内の既存のファイルを処理するオプションもあります。

COPY INTO

COPY INTOを使用すると、SQLユーザーはクラウドオブジェクトストレージからDeltaテーブルにデータを冪等かつ増分的に取り込むことができます。Databricks SQL、ノートブック、Databricks ジョブで COPY INTO を使用できます。

COPY INTOとAuto Loaderの使い分け

ここでは、 Auto Loader とCOPY INTOのどちらかを選択する際に考慮すべき点をいくつか紹介します。

  • 時間の経過とともに数千のオーダーでファイルを取り込む場合は、 COPY INTO. 時間の経過とともに数百万以上のファイルが予想される場合は、 Auto Loaderを使用します。 Auto Loader は、COPY INTOと比較してファイルを検出するために必要な総操作が少なく、処理を複数のバッチに分割できるため、 Auto Loader は低コストで大規模に効率的です。

  • データ スキーマが頻繁に進化する場合、 Auto Loader では、スキーマの推論と進化に関するプリミティブ データ型が適切になります。 詳細については、「Auto Loaderでのスキーマ推論と進化の構成」を参照してください。

  • 再アップロードされたファイルのサブセットをロードすると、 COPY INTOで管理が少し簡単になります。 Auto Loaderを使用すると、選択したファイルのサブセットを再処理するのが難しくなります。ただし、COPY INTO を使用して、 Auto Loader ストリームが同時に実行されている間にファイルのサブセットを再読み込みできます。

Auto Loader と COPY INTOの簡単な概要とデモについては、次の YouTube ビデオ (2 分) をご覧ください。

Delta Live TablesとAuto Loaderを使用してETLを自動化する

Auto Loader と Delta Live Tables を使用すると、スケーラブルで増分的なインジェスト インフラストラクチャのデプロイを簡略化できます。 Delta Live Tables ノートブックにある標準の対話型実行は使用せず、代わりに、本番運用の準備ができているインフラストラクチャのデプロイに重点を置いています。

サードパーティの取り込みツール

Databricks は、クラウド オブジェクト ストレージを含むさまざまなソースから取り込むことができる技術パートナーの統合を検証します。 これらの統合により、さまざまなソースから Databricks. . 技術パートナーを参照してください。一部の技術パートナーは、サードパーティ ツールをレイクハウス データに簡単に接続できる UI を提供する Databricks Partner Connect とは で紹介されています。