Databricks レイクハウスにデータを取り込む

Databricks は、Delta Lake が支援するレイクハウスにデータを取り込むのに役立つさまざまな方法を提供します。 Databricks では、クラウドオブジェクトストレージからの増分データ取り込みに Auto Loader を使用することをお勧めします。データ追加 UI には、ローカルファイルを迅速にアップロードしたり、外部データソースに接続したりするための多数のオプションが用意されています。

最初のETLワークロードを実行する

DatabricksでAuto Loaderを使用したことがない場合は、チュートリアルから始めてください。 Databricksで最初のETLワークロードを実行するを参照してください。

Auto Loader

Auto Loaderは、クラウドストレージに到着する新しいデータファイルをインクリメンタルかつ効率的に処理します。追加の設定は必要ありません。Auto Loaderは cloudFiles という構造化ストリーミング・ソースを提供します。クラウドファイルストレージ上の入力ディレクトリパスが与えられると、 cloudFiles のソースは到着する新しいファイルを自動的に処理します。そのディレクトリ内の既存のファイルを処理するオプションもあります。

Delta Live TablesとAuto Loaderを使用してETLを自動化する

Auto Loader と Delta Live Tablesによって、スケーラブルで増分的なインジェストインフラストラクチャのデプロイを簡素化できます。Delta Live Tables では、ノートブックにある標準の対話型実行は使用されず、代わりに本番運用の準備が整ったインフラストラクチャのデプロイが強調されていることに注意してください。

Databricks SQLのストリーミングテーブルを使用してデータを読み込む

ローカルデータファイルのアップロード、または外部データソースへの接続

ローカルデータファイルを安全にアップロードしたり、外部ソースからデータを取り込んでテーブルを作成することができます。データの追加UIを使用してデータを読み込むを参照してください。

サードパーティのツールを使用して Databricks にデータを取り込む

Databricks は、Databricks へのデータの取り込みを可能にする技術パートナーの統合を検証します。これらの統合により、さまざまなソースから Databricks へのローコードでスケーラブルなデータ取り込みが可能になります。「技術パートナー」を参照してください。一部の技術パートナーはDatabricks Partner Connectで紹介されており、サードパーティツールをレイクハウスデータに簡単に接続する UI を提供します。

COPY INTO

COPY INTO を使用すると、SQL ユーザーはクラウドオブジェクトストレージからDeltaテーブルにデータをべき等かつ増分的に取り込むことができます。 Databricks SQL、ノートブック、Databricks ジョブで使用できます。

COPY INTOとAuto Loaderの使い分け

Auto Loader と COPY INTOのどちらかを選択する際に考慮すべき点がいくつかあります。

数千のオーダーのファイルを取り込む場合は、 COPY INTOを使用できます。時間の経過と共に数百万以上のオーダーのファイルになることが予想される場合は、 Auto Loaderを使用します。 Auto Loader では、 COPY INTO に比べてファイルを検出するために必要な操作の数が少なく、処理を複数のバッチに分割できるため、 Auto Loader は安価で大規模で効率的です。
データスキーマが頻繁に進化する場合、Auto Loaderはスキーマの推論と進化に関するより優れたプリミティブを提供します。詳細については Auto Loaderにおけるスキーマの推論と展開の設定を参照してください。
再アップロードされたファイルのサブセットをロードすると、 COPY INTOを使用すると管理が少し簡単になります。 Auto Loaderを使用すると、選択したファイルのサブセットを再処理するのが難しくなります。ただし、 COPY INTO を使用すると、 Auto Loader ストリームが同時に実行されている間にファイルのサブセットを再読み込みできます。

さらにスケーラブルで堅牢なファイルインジェストエクスペリエンスを実現するために、 Auto Loader を使用すると、SQL ユーザーはストリーミングテーブルを活用できます。 Databricks SQL でのストリーミングテーブルを使用したデータの読み込みに関するページを参照してください。

Auto Loaderの簡単な概要とデモンストレーション、および COPY INTOについては、次のYouTubeビデオ(2分)をご覧ください。

データ取り込み中に取得されたファイルのメタデータを確認する

Apache Sparkは、データの読み込み中にソースファイルに関するデータを自動的にキャプチャします。Databricksのユーザーは、ファイルのメタデータ列を使用してこのデータにアクセスできます。

スプレッドシートのエクスポートをDatabricksにアップロードする

ファイルアップロードからテーブルを作成または変更 ページから、CSV、TSV、またはJSONファイルをアップロードします。ファイルアップロードを使用したテーブルの作成と変更を参照してください。

データアプリケーションをDatabricksに移行する

既存のデータアプリケーションをDatabricksに移行すると、単一のプラットフォームで多数のソースシステムのデータを操作できるようになります。データアプリケーションをDatabricksに移行するを参照してください。