メインコンテンツまでスキップ

Databricks によるデータエンジニアリング

Databricksは、データエンジニア、ソフトウェア開発者、SQL開発者、アナリスト、data scientistsが下流のアナリティクス、AI、運用アプリケーション向けの高品質なデータを提供できるようにする、エンドツーエンドのデータエンジニアリングソリューションであるLakeflowを提供しています。Lakeflowは、データを取り込み、変換し、オーケストレーションするための統合ソリューションであり、Lakeflow Connect、Lakeflow Spark宣言型パイプライン、Lakeflow Designer、Lakeflowジョブが含まれています。

Lakeflowコネクト

Lakeflowコネクト 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。

    • マネージド コネクタ
    • マネージド コネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。
    • 標準コネクタ
    • 標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータ ソースのデータにアクセスする機能を提供します。

Lakeflow Spark宣言型パイプライン (SDP)

Lakeflow Spark宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミング データ パイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 SDP は、フロー、シンク、ストリーミング テーブル、およびマテリアライズドビューをカプセル化してパイプラインとして実行することにより、これらの実行を自動的に調整します。 Lakeflow Spark宣言型パイプラインを参照してください。

    • フロー
    • フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。 フローは、ストリーミング セマンティクスを使用してストリーミング テーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチ セマンティクスを使用してマテリアライズドビューに書き込むこともできます。
    • ストリーミングテーブル
    • ストリーミング テーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。 パイプライン内の 1 つ以上のフローのターゲットとして機能します。
    • マテリアライズドビュー
    • マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。 マテリアライズドビューはパイプラインのターゲットとして機能します。
    • シンク
    • パイプラインは、ターゲットとして外部データ シンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービス、Unity Catalog によって管理される外部テーブル、Python で定義されたカスタム シンクなどが含まれます。

Lakeflow Designer

Lakeflow Designer は Databricks のビジュアルなデータ準備ツールです。ドラッグ アンド ドロップ キャンバスまたは自然言語プロンプトを使用して、変換ワークフローを構築および探索できます。すべてのDesignerワークフローは、本番運用に対応したコードによってサポートされ、Unity Catalogによって管理されています。See Lakeflow Designer.

    • データを取り込む
    • Lakeflow Designer のビジュアルデータ準備に、Databricks を介してアクセス可能なあらゆるデータを持ち込みます。
    • 組み込みオペレーター
    • データのフィルタリング、集計、結合、および整形には、組み込みの演算子を使用してください。

Lakeflow ジョブ

Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。Lakeflowジョブを参照してください。

    • ジョブ
    • ジョブは、オーケストレーションの主要なリソースです。これらは、スケジュールに基づいて実行するプロセスを表します。
    • タスク
    • ジョブ内の特定の作業単位。ジョブ内で実行できるさまざまなオプションを提供するさまざまなタスクタイプがあります。
    • ジョブの制御フロー
    • 制御フロー タスクを使用すると、他のタスクを実行するかどうか、または実行するタスクの順序を制御できます。

Apache Spark向けDatabricksランタイム

Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。

Delta Live Tables (DLT) はどうなりましたか?

Delta Live Tables (DLT) に精通している場合は、 Delta Live Tables (DLT) はどうなったのですか?を参照してください。

追加のリソース