Zerobus Ingestコネクタの概要
プレビュー
Zerobus Ingest コネクタはパブリック プレビュー段階です。お試しいただくには、Databricks アカウント担当者にお問い合わせください。
Zerobus Ingest コネクタを使用すると、gRPC API介してDeltaテーブルにレコードごとのデータ取り込みを直接行うことができます。 このサーバレス コネクタはあらゆる規模で動作し、メッセージ バス インフラストラクチャとデルタ固有の依存関係の必要性を排除することで取り込みワークフローを合理化します。
このコネクタは、システムとの統合や Delta Lake 形式での直接書き込みの際に課題に直面しているクライアントに役立ちます。gRPC 経由で通信し、Protobuf メッセージを構築できるアプリケーションであれば、Zerobus Ingest を使用してデータを Delta テーブルに効率的にプッシュできます。
アプリケーションは標準 API インターフェースに対して統合を構築でき、メッセージ バスの依存関係を削除することでアーキテクチャを簡素化できます。たとえば、クリックストリーム データは、中間メッセージ バス インフラストラクチャなしで、アプリケーションから Delta テーブルに直接流れることができます。
Zerobus Ingest API は、送信されたデータを Delta テーブルに追加する前にバッファリングします。このバッファリングにより、さまざまなスループットで大量のクライアントをサポートする、効率的で耐久性のある取り込みメカニズムが作成されます。
Delta 形式に変換されたデータは、包括的な Databricks データ インテリジェンス プラットフォームと完全に互換性を持つようになり、ユーザーは使い慣れたツールや機能を活用して、さらなるデータ分析や処理を行うことができます。
コンセプト
データ プロデューサーは、まず Delta テーブルへの ストリーム を開き、そのスキーマに一致するメッセージを構築してから、そのメッセージを Zerobus Ingest API にプッシュします。サービスは、データを永続的にし、クライアントのメッセージを確認し、Delta テーブルにデータを生成します。
サーバ
Zerobus Ingest サービスはテーブルを自動的に作成または操作しません。サービスはクライアントからデータを取得し、それがテーブル スキーマに適合するかどうかを検証してから、データをテーブルに書き込みます。
サービス責任には以下が含まれます。
- テーブルへのメッセージのスキーマ検証。
- データをタイムリーにターゲット テーブルに具体化します。
- データが永続的であることをクライアントに確認通知します。
クライアント
クライアント統合には以下が含まれます。
- ターゲット テーブルを選択します。
- Zerobus Ingest サービスを使用してストリームを確立します。
- スキーマ互換メッセージを構築します。
- メッセージを送信しています。
- メッセージの確認を管理します。
- クライアント、ストリーム、またはサーバー側の障害(接続の問題、スキーマの不一致など)が発生した場合の回復メカニズムの実装
Databricks Python SDK は、これを実現するためのユーザーフレンドリーな方法を提供し、ドキュメントにはさまざまな開発パターンの例が示されています。カスタム統合の場合、SDK は統合構造と回復処理のリファレンスとして機能します。
Zerobus Ingestを使い始める
- Zerobus Ingest URL を取得します。
- データを取り込むテーブルを作成または識別します。
- サービスプリンシパルを作成し、テーブルに権限を付与します。
- データの送信を開始するクライアントを作成します。
詳細な手順については、 「Zerobus Ingest コネクタの使用」を参照してください。
料金
現時点では、Zerobus の使用料は請求されません。ただし、Databricks は将来的に料金を導入する予定です。