Databricks レイクハウスにデータを取り込む
Databricks は、Delta Lake が支援するレイクハウスにデータを取り込むのに役立つさまざまな方法を提供します。 Databricks では、クラウド オブジェクト ストレージからの増分データ取り込みに Auto Loader を使用することをお勧めします。 データ追加 UI には、ローカル ファイルを迅速にアップロードしたり、外部データ ソースに接続したりするための多数のオプションが用意されています。
最初のETLワークロードを実行する
DatabricksでAuto Loaderを使用したことがない場合は、チュートリアルから始めてください。 Databricksで最初のETLワークロードを実行するを参照してください。
Auto Loader
Auto Loaderは、クラウドストレージに到着する新しいデータファイルをインクリメンタルかつ効率的に処理します。追加の設定は必要ありません。Auto Loaderは cloudFiles
という構造化ストリーミング・ソースを提供します。クラウドファイルストレージ上の入力ディレクトリパスが与えられると、 cloudFiles
のソースは到着する新しいファイルを自動的に処理します。そのディレクトリ内の既存のファイルを処理するオプションもあります。
Delta Live TablesとAuto Loaderを使用してETLを自動化する
Auto Loader と Delta Live Tablesによって、スケーラブルで増分的なインジェスト インフラストラクチャのデプロイを簡素化できます。Delta Live Tables では、ノートブックにある標準の対話型実行は使用されず、代わりに本番運用の準備が整ったインフラストラクチャのデプロイが強調されていることに注意してください。
ローカルデータファイルのアップロード、または外部データソースへの接続
ローカルデータファイルを安全にアップロードしたり、外部ソースからデータを取り込んでテーブルを作成することができます。データの追加UIを使用してデータを読み込むを参照してください。
サードパーティのツールを使用して Databricks にデータを取り込む
Databricks は、Databricks へのデータの取り込みを可能にする技術パートナーの統合を検証します。 これらの統合により、さまざまなソースから Databricks へのローコードでスケーラブルなデータ取り込みが可能になります。 「技術パートナー」を参照してください。 一部の技術パートナーはDatabricks Partner Connectで紹介されており、サードパーティ ツールをレイクハウス データに簡単に接続する UI を提供します。
COPY INTO
COPY INTO を使用すると、SQL ユーザーはクラウド オブジェクト ストレージからDeltaテーブルにデータをべき等かつ増分的に取り込むことができます。 Databricks SQL、ノートブック、Databricks ジョブで使用できます。
COPY INTOとAuto Loaderの使い分け
Auto Loader と COPY INTO
のどちらかを選択する際に考慮すべき点がいくつかあります。
数千のオーダーのファイルを取り込む場合は、
COPY INTO
を使用できます。 時間の経過と共に数百万以上のオーダーのファイルになることが予想される場合は、 Auto Loaderを使用します。 Auto Loader では、COPY INTO
に比べてファイルを検出するために必要な操作の数が少なく、処理を複数のバッチに分割できるため、 Auto Loader は安価で大規模で効率的です。データスキーマが頻繁に進化する場合、Auto Loaderはスキーマの推論と進化に関するより優れたプリミティブを提供します。詳細については Auto Loaderにおけるスキーマの推論と展開の設定 を参照してください。
再アップロードされたファイルのサブセットをロードすると、
COPY INTO
を使用すると管理が少し簡単になります。 Auto Loaderを使用すると、選択したファイルのサブセットを再処理するのが難しくなります。ただし、COPY INTO
を使用すると、 Auto Loader ストリームが同時に実行されている間にファイルのサブセットを再読み込みできます。
さらにスケーラブルで堅牢なファイル インジェスト エクスペリエンスを実現するために、 Auto Loader を使用すると、SQL ユーザーはストリーミング テーブルを活用できます。 Databricks SQL でのストリーミング テーブルを使用したデータの読み込みに関するページを参照してください。
Auto Loaderの簡単な概要とデモンストレーション、および COPY INTO
については、次のYouTubeビデオ(2分)をご覧ください。
データ取り込み中に取得されたファイルのメタデータを確認する
Apache Sparkは、データの読み込み中にソースファイルに関するデータを自動的にキャプチャします。Databricksのユーザーは、ファイルのメタデータ列を使用してこのデータにアクセスできます。
スプレッドシートのエクスポートをDatabricksにアップロードする
ファイルアップロードからテーブルを作成または変更 ページから、CSV、TSV、またはJSONファイルをアップロードします。ファイルアップロードを使用したテーブルの作成と変更を参照してください。
データアプリケーションをDatabricksに移行する
既存のデータアプリケーションをDatabricksに移行すると、単一のプラットフォームで多数のソースシステムのデータを操作できるようになります。データアプリケーションをDatabricksに移行するを参照してください。