クラウドオブジェクトストレージからのデータの取り込み
この記事では、クラウド オブジェクト ストレージからの増分インジェストを構成する方法について説明します。
データ追加UI
データの追加 UI を使用して、クラウド オブジェクト ストレージ内のデータからマネージドテーブルを作成する方法については、「Unity Catalog外部ロケーションを使用したデータのロード」を参照してください。
ノートブックまたは SQL エディター
このセクションでは、ノートブックまたは Databricks SQL エディターを使用して、クラウド オブジェクト ストレージからの増分インジェストを構成するためのオプションについて説明します。
Auto Loader
Auto Loader は、新しいデータ ファイルがクラウド ストレージに到着すると、追加の設定なしで段階的かつ効率的に処理します。 Auto Loader には、cloudFiles
という構造化ストリーミング ソース があります。 クラウドファイルストレージ上の入力ディレクトリパスを指定すると、 cloudFiles
ソースは新しいファイルが到着すると自動的に処理し、そのディレクトリ内の既存のファイルも処理するオプションもあります。
COPY INTO
COPY INTOを使用すると、SQLユーザーはクラウドオブジェクトストレージからDeltaテーブルにデータを冪等かつ増分的に取り込むことができます。Databricks SQL、ノートブック、Databricks ジョブで COPY INTO
を使用できます。
COPY INTOを使用する場合とAuto Loaderを使用する場合
ここでは、 Auto Loader とCOPY INTO
のどちらかを選択する際に考慮すべき点をいくつか紹介します。
- 時間の経過とともに数千のオーダーでファイルを取り込む場合は、
COPY INTO
. 時間の経過とともに数百万以上のファイルが予想される場合は、 Auto Loaderを使用します。 Auto Loader は、COPY INTO
と比較してファイルを検出するために必要な総操作が少なく、処理を複数のバッチに分割できるため、 Auto Loader は低コストで大規模に効率的です。 - データ スキーマが頻繁に進化する場合、 Auto Loader では、スキーマの推論と進化に関するプリミティブ データ型が適切になります。 詳細については、「Auto Loaderでのスキーマ推論と進化の構成」を参照してください。
- 再アップロードされたファイルのサブセットをロードすると、
COPY INTO
で管理が少し簡単になります。 Auto Loaderを使用すると、選択したファイルのサブセットを再処理するのが難しくなります。ただし、COPY INTO
を使用して、 Auto Loader ストリームが同時に実行されている間にファイルのサブセットを再読み込みできます。
Auto Loader と COPY INTO
の簡単な概要とデモについては、次の YouTube ビデオ (2 分) をご覧ください。
DLTとAuto LoaderによるETLの自動化
Auto Loader と DLT を使用して、スケーラブルで増分的なインジェスト インフラストラクチャのデプロイを簡略化できます。DLTは、ノートブックにある標準的なインタラクティブ実行を使用せず、本番運用に対応したインフラストラクチャのデプロイに重点を置いています。
サードパーティの取り込みツール
Databricks は、Cloud Object Storage を含むさまざまなソースからの取り込みを可能にする技術パートナーの統合を検証します。 これらの統合により、さまざまなソースから Databricks. . 技術パートナーを参照してください。一部の技術パートナーは、サードパーティ ツールをレイクハウス データに簡単に接続できる UI を提供する「DatabricksPartner Connectとは」で紹介されています。