Databricksのすべての Delta は何ですか?

この記事では、Databricks で Delta と総称されるテクノロジを紹介します。 Delta は、 Delta Lake オープンソースプロジェクトに関連する、またはオープンソースプロジェクトに含まれるテクノロジーを指します。

この記事の回答:

  • Databricks のDelta テクノロジは何ですか?

  • 彼らは何をしますか? またはそれらは何のために使われますか?

  • それらは互いにどのように関連し、区別されますか?

Deltaと呼ばれるものは何に使用されますか?

Delta は、Databricks レイクハウスにデータとテーブルを格納するための基盤である Delta Lake で導入された用語です。 Delta Lake は、ACIDトランザクションとスケーラブルなメタデータ処理のためのファイルベースのトランザクション ログを使用して Parquet データ ファイルを拡張することにより、トランザクションのリアルタイムおよびバッチ ビッグデータを処理するための統合データ管理システムとして考案されました。

Delta Lake: レイクハウスにおけるオープンソースデータマネジメント

Delta Lake は、クラウド ストレージ (AWS S3、Azure Storage、GCS 上) に格納されているデータの上にトランザクション ストレージ レイヤーを追加することで、データレイクに信頼性をもたらすオープンソースのストレージ レイヤーです。 これにより、ACIDトランザクション、データのバージョン管理、およびロールバック機能を使用できます。 これにより、バッチデータとストリーミングデータの両方を統一された方法で処理できます。

Delta テーブルはこのストレージレイヤーの上に構築され、テーブルの抽象化を提供するため、SQLとDataFrame APIを使用して大規模な構造化データを簡単に操作できます。

Delta テーブル: デフォルト データ テーブル アーキテクチャ

Delta テーブルは、Databricks の既定のデータ テーブル形式であり、 Delta Lake オープンソース データ フレームワークの機能です。 Delta テーブルは通常、データがストリーミングまたは大規模なバッチで取り込まれるデータレイクに使用されます。

以下をご覧ください:

Delta Live Tables: データパイプライン

Delta Live Tablesは、多くの Delta テーブル間のデータ フローを管理し、ETL の開発と管理に関するデータエンジニアの作業を簡素化します。 パイプラインは、 Delta Live Tablesの実行のメインユニットです。Delta Live Tables は、宣言型パイプライン開発、データの信頼性の向上、クラウド規模の運用オペレーションを提供します。 ユーザーは同じテーブルに対してバッチ操作とストリーミング操作の両方を実行でき、データをすぐにクエリに使用できます。 データに対して実行する変換を定義すると、Delta Live Tables によってタスク オーケストレーション、クラスター管理、モニタリング、データ品質、およびエラー処理が管理されます。 Delta Live Tables 拡張オートスケールは、スパイクで予測不可能なストリーミングワークロードを処理できます。

Delta Live Tablesチュートリアルを参照してください。

Delta テーブルとDelta Live Tables

Delta テーブルはテーブルにデータを格納する方法ですが、 Delta Live Tables では、これらのテーブル間のデータの流れを宣言によって記述できます。 Delta Live Tables は、多くの差分テーブルを作成して最新の状態に保つことで、それらを管理する宣言型フレームワークです。 つまり、 Delta テーブルはデータテーブルアーキテクチャであり、 Delta Live Tables はデータパイプラインフレームワークです。

Delta:オープンソースかプロプライエタリか?

Databricks プラットフォームの強みは、顧客を独自のツールに縛り付けないことです: テクノロジの多くは、Databricks が貢献する オープンソース プロジェクトを利用しています。

Delta OSS プロジェクトはその一例です。

Delta Live Tables は、Databricks の独自のフレームワークです。

Databricksの他の Delta ことは何ですか?

以下は、名前に Delta を含む他の機能の説明です。

Delta Sharing

安全なデータ共有のためのオープンスタンダードである Delta Sharing は、コンピュートプラットフォームに関係なく、組織間のデータ共有を可能にします。

Delta エンジン

Databricks に含まれる Delta Lake オープンソース テクノロジを使用する Data 用のクエリー オプティマイザ。 Delta エンジンは、計算をデータにプッシュすることで、Spark SQL、Databricks SQL、および DataFrame 操作のパフォーマンスを最適化します。

Delta Lake トランザクション ログ (別名 DeltaLogs)

ユーザーがテーブルに加えたすべての変更と、Delta Lake が 原子性を保証するメカニズムを追跡する信頼できる唯一の情報源。 GitHub の Delta トランザクション ログ プロトコル を参照してください。

トランザクション ログは、Delta Lake の最も重要な機能の多くを実行する共通スレッドであるため、Delta Lake を理解するための鍵となります。

  • ACIDトランザクション

  • スケーラブルなメタデータ処理

  • タイムトラベル

  • 等々