Databricks でのストリーミング
Databricks を使用すると、ほぼリアルタイムのデータの取り込み、処理、機械学習、AI によるデータのストリーミングを行うことができます。
Databricks は、ストリーミング処理とインクリメンタル処理に対して、次のような多数の最適化を提供します。
- DLT は、インクリメンタル処理のための宣言型構文を提供します。DLTとはを参照してください。
- Auto Loader は、クラウド オブジェクト ストレージからの増分インジェストを簡素化します。 「Auto Loaderとは」を参照してください。
- Unity Catalog は、ストリーミング ワークロードにデータガバナンスを追加します。 「構造化ストリーミングでの Unity Catalog の使用」を参照してください。
Delta Lake は、これらの統合のためのストレージレイヤーを提供します。 Delta テーブル ストリーミングの読み取りと書き込みを参照してください。
リアルタイム モデルサービングについては、「Mosaic AI Model Servingを使用したモデルのデプロイ」を参照してください。
- チュートリアル
- コンセプト
- ステートフルストリーミング
- カスタムステートフルアプリケーション
- 本番運用に関する考慮事項
- ストリームの監視
- Unity Catalogの統合
- Deltaによるストリーミング
- 例
Databricks には、Avro、プロトコル バッファー、JSON データ ペイロードに含まれる半構造化データ フィールドを操作するための特定の機能があります。 詳細については、以下を参照してください。
追加のリソース
Apache Sparkの提供する「構造化ストリーミングプログラミングガイド」には、構造化ストリーミングに関する詳細情報が掲載されています。
構造化ストリーミングに関する参考情報については、Databricks では Apache Spark API による次のリファレンスを推奨します。