Databricks によるデータエンジニアリング
Databricksは、データエンジニア、ソフトウェア開発者、SQL開発者、アナリスト、data scientistsが下流のアナリティクス、AI、運用アプリケーション向けの高品質なデータを提供できるようにする、エンドツーエンドのデータエンジニアリングソリューションであるLakeflowを提供しています。Lakeflowは、データを取り込み、変換し、オーケストレーションするための統合ソリューションであり、Lakeflow Connect、Lakeflow Spark宣言型パイプライン、Lakeflow Designer、Lakeflowジョブが含まれています。
Lakeflowコネクト
Lakeflowコネクト 、一般的なエンタープライズアプリケーション、データベース、クラウドストレージ、メッセージバス、ローカルファイルへのコネクタにより、データ取り込みを簡素化します。 Lakeflowコネクトを参照してください。
-
- マネージド コネクタ
- マネージド コネクタは、基盤となるパイプラインAPIsやインフラストラクチャを使用する必要がなく、最小限の運用オーバーヘッドでシンプルな UI と構成ベースの取り込みサービスを提供します。
-
- 標準コネクタ
- 標準コネクタは、パイプラインまたは他のクエリ内から広範囲のデータ ソースのデータにアクセスする機能を提供します。
Lakeflow Spark宣言型パイプライン (SDP)
Lakeflow Spark宣言型パイプライン (SDP) は、効率的なバッチおよびストリーミング データ パイプラインの構築と管理の複雑さを軽減する宣言型フレームワークです。 Lakeflow SDP は、パフォーマンスが最適化されたDatabricks Runtime上で実行されながら、 Apache Spark 宣言型パイプラインを拡張し、相互運用可能です。 SDP は、フロー、シンク、ストリーミング テーブル、およびマテリアライズドビューをカプセル化してパイプラインとして実行することにより、これらの実行を自動的に調整します。 Lakeflow Spark宣言型パイプラインを参照してください。
-
- フロー
- フローはパイプライン内のデータを処理します。フローAPI 、 Apache Sparkおよび構造化ストリーミングと同じDataFrame API使用します。 フローは、ストリーミング セマンティクスを使用してストリーミング テーブルおよびシンクKafkaトピックなど) に書き込むことができます。また、バッチ セマンティクスを使用してマテリアライズドビューに書き込むこともできます。
-
- ストリーミングテーブル
- ストリーミング テーブルは、ストリーミングまたは増分データ処理の追加サポートを備えたDeltaテーブルです。 パイプライン内の 1 つ以上のフローのターゲットとして機能します。
-
- マテリアライズドビュー
- マテリアライズドビューは、より高速にアクセスできるようにキャッシュされた結果を含むビューです。 マテリアライズドビューはパイプラインのターゲットとして機能します。
-
- シンク
- パイプラインは、ターゲットとして外部データ シンクをサポートします。これらのシンクには、Apache Kafka や Azure Event Hubs などのイベント ストリーミング サービス、Unity Catalog によって管理される外部テーブル、Python で定義されたカスタム シンクなどが含まれます。
Lakeflow Designer
Lakeflow Designer は Databricks のビジュアルなデータ準備ツールです。ドラッグ アンド ドロップ キャンバスまたは自然言語プロンプトを使用して、変換ワークフローを構築および探索できます。すべてのDesignerワークフローは、本番運用に対応したコードによってサポートされ、Unity Catalogによって管理されています。See Lakeflow Designer.
-
- ビジュアルデータの準備
- ドラッグ アンド ドロップ キャンバスを使用してデータ変換ワークフローを構築できます。
-
- データを取り込む
- Lakeflow Designer のビジュアルデータ準備に、Databricks を介してアクセス可能なあらゆるデータを持ち込みます。
-
- 組み込みオペレーター
- データのフィルタリング、集計、結合、および整形には、組み込みの演算子を使用してください。
-
- 自然言語による更新
- Genie Codeで自然言語プロンプトを使用して、変換を生成または更新します。
Lakeflow ジョブ
Lakeflow Jobs は、あらゆるデータや AI ワークロードに対して信頼性の高いオーケストレーションと本番運用 モニタリングを提供します。 ジョブは、ノートブック、パイプライン、マネージド コネクタ、SQL クエリ、機械学習トレーニング、モデルのデプロイと推論を実行する 1 つ以上のタスクで構成できます。ジョブは、if / else ステートメントによる分岐や for each ステートメントによるループなど、カスタム制御フロー ロジックもサポートしています。Lakeflowジョブを参照してください。
Apache Spark向けDatabricksランタイム
Databricksランタイム は、バッチやストリーミングなどのSparkワークロードを実行するための、信頼性が高く、パフォーマンスが最適化されたコンピュート環境です。Databricksランタイムは、高性能なDatabricks ネイティブのベクトル化クエリエンジンであるPhoton、オートスケールなどのさまざまなインフラストラクチャ最適化を提供します。Spark と構造化ストリーミングのワークロードを Databricks ランタイム で実行するには、Spark プログラムをノートブック、JAR、または Python ホイールとしてビルドします。Apache Spark向けDatabricksランタイムを参照してください。
-
- DatabricksにおけるApache Spark
- Spark は、Databricks Data Intelligence Platform の中核をなすものです。
-
- 構造化ストリーミング
- 構造化ストリーミングは、ストリーミング データ用の Spark のほぼリアルタイムの処理エンジンです。
Delta Live Tables (DLT) はどうなりましたか?
Delta Live Tables (DLT) に精通している場合は、 Delta Live Tables (DLT) はどうなったのですか?を参照してください。
追加のリソース
- データエンジニアリングの概念 では、 Databricksのデータエンジニアリングの概念について説明します。
- Delta Lake は、Databricks のレイクハウスのテーブルの基盤を提供する最適化されたストレージ レイヤーです。
- データエンジニアリング のベストプラクティス では、 Databricksでのデータエンジニアリングのベストプラクティスについて説明します。
- Databricks ノートブック は、コラボレーションと開発のための一般的なツールです。
- Databricks SQL では、Databricks での SQL クエリと BI ツールの使用について説明しています。
- Databricksの機械学習に関する記事では、機械学習ソリューションの設計方法について解説しています。