クラウドオブジェクトストレージからのデータの取り込み
この記事では、クラウド オブジェクト ストレージからの増分インジェストを構成する方法について説明します。
データ追加UI
データの追加UIを使用して、クラウドオブジェクトストレージ内のデータからマネージドテーブルを作成する方法については、「Unity Catalog外部ロケーションを使用したデータの読み込み」を参照してください。
ノートブックまたは SQL エディター
このセクションでは、ノートブックまたは Databricks SQL エディターを使用して、クラウド オブジェクト ストレージからの増分インジェストを構成するためのオプションについて説明します。
Auto Loader
Auto Loaderは、クラウドストレージに到着する新しいデータファイルをインクリメンタルかつ効率的に処理します。追加の設定は必要ありません。Auto Loaderは cloudFiles
という構造化ストリーミング・ソースを提供します。クラウドファイルストレージ上の入力ディレクトリパスが与えられると、 cloudFiles
のソースは到着する新しいファイルを自動的に処理します。そのディレクトリ内の既存のファイルを処理するオプションもあります。
COPY INTO
COPY INTOを使用すると、SQLユーザーはクラウドオブジェクトストレージからDeltaテーブルにデータを冪等かつ増分的に取り込むことができます。Databricks SQL、ノートブック、Databricks ジョブで COPY INTO
を使用できます。
COPY INTOとAuto Loaderの使い分け
ここでは、 Auto Loader とCOPY INTO
のどちらかを選択する際に考慮すべき点をいくつか紹介します。
時間の経過とともに数千のオーダーでファイルを取り込む場合は、
COPY INTO
. 時間の経過とともに数百万以上のファイルが予想される場合は、 Auto Loaderを使用します。 Auto Loader は、COPY INTO
と比較してファイルを検出するために必要な総操作が少なく、処理を複数のバッチに分割できるため、 Auto Loader は低コストで大規模に効率的です。データ スキーマが頻繁に進化する場合、 Auto Loader では、スキーマの推論と進化に関するプリミティブ データ型が適切になります。 詳細については、「Auto Loaderでのスキーマ推論と進化の構成」を参照してください。
再アップロードされたファイルのサブセットをロードすると、
COPY INTO
で管理が少し簡単になります。 Auto Loaderを使用すると、選択したファイルのサブセットを再処理するのが難しくなります。ただし、COPY INTO
を使用して、 Auto Loader ストリームが同時に実行されている間にファイルのサブセットを再読み込みできます。
さらにスケーラブルで堅牢なファイル インジェスト エクスペリエンスを実現するために、Auto Loader を使用すると、SQL ユーザーはストリーミング テーブルを活用できます。 「Databricks SQL のストリーミング テーブルを使用してデータを読み込む」を参照してください。
Auto Loader と COPY INTO
の簡単な概要とデモについては、次の YouTube ビデオ (2 分) をご覧ください。
サードパーティの取り込みツール
Databricks は、クラウド オブジェクト ストレージを含むさまざまなソースから取り込むことができる技術パートナーの統合を検証します。 これらの統合により、さまざまなソースから Databricks. . 技術パートナーを参照してください。一部の技術パートナーは、サードパーティ ツールをレイクハウス データに簡単に接続できる UI を提供する Databricks Partner Connect とは で紹介されています。