Databricks によるデータエンジニアリング

Databricks は、データエンジニア、ソフトウェア開発者、SQL 開発者、アナリスト、data scientists がダウンストリームアナリティクス、AI、および運用アプリケーション向けに高品質のデータを提供できるようにする、Lakeflow と呼ばれるエンドツーエンドのデータエンジニアリングソリューションを提供します。LakeFlow は、データの取り込み、変換、オーケストレーションのための統合ソリューションであり、Lakeflow Connect、LakeFlow Pipelines、Lakeflow Designer、および Lakeflow Jobs が含まれています。

Lakeflowコネクト

Lakeflowコネクト、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。

- マネージドコネクタ
- マネージドコネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。
- 標準コネクタ
- 標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータソースのデータにアクセスする機能を提供します。

LakeFlow Pipelines

LakeFlow Pipelinesは、効率的なバッチおよびストリーミングデータパイプラインの構築と管理の複雑さを軽減します。SQLおよびPythonでのバッチおよびストリーミングパイプライン向けの宣言型フレームワークであるApache Spark™ Declarative Pipelines (SDP) を基盤とするLakeFlow Pipelinesは、パフォーマンスが最適化されたDatabricks Runtime上で実行され、それとの相互運用性を維持します。パイプラインは、フロー、シンク、ストリーミングテーブル、およびマテリアライズドビューの実行を自動的に調整します。See LakeFlow Pipelines.

- フロー
- フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。フローは、ストリーミングセマンティクスを使用してストリーミングテーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチセマンティクスを使用してマテリアライズドビューに書き込むこともできます。
- ストリーミングテーブル
- ストリーミングテーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。パイプライン内の 1 つ以上のフローのターゲットとして機能します。
- マテリアライズドビュー
- マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。マテリアライズドビューはパイプラインのターゲットとして機能します。
- シンク
- パイプラインは、ターゲットとして外部データシンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベントストリーミングサービス、Unity Catalog によって管理される外部テーブル、Python で定義されたカスタムシンクなどが含まれます。

Lakeflow Designer

Lakeflow Designer は Databricks のビジュアルなデータ準備ツールです。ドラッグアンドドロップキャンバスまたは自然言語プロンプトを使用して、変換ワークフローを構築および探索できます。すべてのDesignerワークフローは、本番運用に対応したコードによってサポートされ、Unity Catalogによって管理されています。See Lakeflow Designer.

- ビジュアルデータの準備
- ドラッグアンドドロップキャンバスを使用してデータ変換ワークフローを構築できます。
- データを取り込む
- Lakeflow Designer のビジュアルデータ準備に、Databricks を介してアクセス可能なあらゆるデータを持ち込みます。
- 組み込みオペレーター
- データのフィルタリング、集計、結合、および整形には、組み込みの演算子を使用してください。
- 自然言語による更新
- Genie Codeで自然言語プロンプトを使用して、変換を生成または更新します。

Lakeflow ジョブ

Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用モニタリングを提供します。ジョブは、ノートブック、パイプライン、マネージドコネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フローロジックもサポートしています。Lakeflowジョブを参照してください。

- ジョブ
- ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。
- タスク
- ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。
- ジョブの制御フロー
- 制御フロータスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイムは、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイムで実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

- DatabricksにおけるApache Spark
- Spark は、Databricks Data Intelligence Platform の中核をなすものです。
- 構造化ストリーミング
- 構造化ストリーミングは、ストリーミングデータ用の Spark のほぼリアルタイムの処理エンジンです。

Delta Live Tables (DLT) はどうなりましたか?

Delta Live Tables (DLT) に精通している場合は、 Delta Live Tables (DLT) はどうなったのですか?を参照してください。

追加のリソース

データエンジニアリングの概念では、 Databricksのデータエンジニアリングの概念について説明します。
Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージレイヤーです。
データエンジニアリングのベストプラクティスでは、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
Databricks ノートブックは、コラボレーションと開発のための一般的なツールです。
Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
Databricksの機械学習に関する記事では、機械学習ソリューションの設計方法について解説しています。

Lakeflowコネクト​

LakeFlow Pipelines​

Lakeflow Designer​

Lakeflow ジョブ​

Apache Spark向けDatabricksランタイム​

Delta Live Tables (DLT) はどうなりましたか?​

追加のリソース​