Databricks でのストリーミング

Databricks を使用すると、ほぼリアルタイムのデータの取り込み、処理、機械学習、AI によるデータのストリーミングを行うことができます。

Databricks は、ストリーミング処理とインクリメンタル処理に対して、次のような多数の最適化を提供します。

Delta Lake は、これらの統合のためのストレージレイヤーを提供します。 Delta テーブル ストリーミングの読み取りと書き込みを参照してください。

リアルタイムのモデルの提供については、「Databricks によるモデルサービング」を参照してください。

  • チュートリアル

    Databricksの構造化ストリーミングを使用した、ほぼリアルタイムの増分処理の基本を説明します。

  • コンセプト

    構造化ストリーミングを使用して増分ワークロードとほぼリアルタイムのワークロードを構成するための主要な概念について説明します。

  • ステートフルストリーミング

    ステートフルな構造化ストリーミング クエリの中間状態情報を管理すると、予期しない待機時間や本番運用の問題を防ぐのに役立ちます。

  • 本番運用に関する考慮事項

    この記事には、リアルタイム アプリケーションまたはバッチ アプリケーションのレイテンシとコストの要件を満たすために、 Databricks で構造化ストリーミングを使用して本番運用増分処理ワークロードを構成するための推奨事項が含まれています。

  • ストリームの監視

    Databricks で構造化ストリーミング アプリケーションを監視する方法について説明します。

  • Unity Catalog の統合

    Unity CatalogとDatabricksの構造化ストリーミングを連携させる方法をご紹介します。

  • Delta によるストリーミング

    Delta Lake テーブルをストリーミングソースおよびシンクとして使用する方法について説明します。

  • Databricks の Cassandra、Azure Synapse Analytics、Python ノートブック、Scala ノートブックで Spark 構造化ストリーミングを使用する例を参照してください。

Databricks には、Avro、プロトコル バッファー、JSON データ ペイロードに含まれる半構造化データ フィールドを操作するための特定の機能があります。 詳細については、以下を参照してください。

追加のリソース

Apache Sparkの提供する「構造化ストリーミングプログラミングガイド」には、構造化ストリーミングに関する詳細情報が掲載されています。

構造化ストリーミングに関する参考情報については、Databricks では Apache Spark API による次のリファレンスを推奨します。