StreamSets への接続

プレビュー

StreamSets は、ライフサイクル全体を通じてデータフローを管理および監視するのに役立ちます。 StreamSets と Databricks および Delta Lake とのネイティブ統合により、さまざまなソースからデータをプルし、パイプラインを簡単に管理できます。

StreamSets の一般的なデモについては、次の YouTube ビデオ (10 分) をご覧ください。

Databricksで StreamSets を使用するための手順は次のとおりです。

ステップ 1: Databricks 個人用アクセストークンを生成する

StreamSets は、Databricks 個人用アクセストークンを使用して Databricks で認証を行います。

注

自動化されたツール、システム、スクリプト、アプリを使用して認証する場合のセキュリティのベストプラクティスとして、Databricks ではOAuth トークンを使用することをお勧めします。

個人のアクセストークン認証を使用する場合、 Databricksでは、ワークスペースユーザーではなく、サービスプリンシパルに属する個人のアクセストークンを使用することをお勧めします。サービスプリンシパルのトークンを作成するには、「サービスプリンシパルのトークンの管理」を参照してください。

ステップ 2: 統合のニーズをサポートするようにクラスターを設定する

StreamSets は S3 バケットにデータを書き込み、Databricks 統合クラスターはその場所からデータを読み取ります。そのため、統合クラスターには S3 バケットへの安全なアクセスが必要です。

S3 バケットへの安全なアクセス

AWS リソースにアクセスするには、インスタンスプロファイルを使用して Databricks 統合クラスターを起動できます。インスタンスプロファイルには、ステージング S3 バケットと、Delta テーブルを書き込むターゲット S3 バケットにアクセスできる必要があります。インスタンスプロファイルを作成し、ロールを使用するように統合クラスターを設定するには、「チュートリアル: インスタンスプロファイルを使用して S3 アクセスを設定する」の手順に従います。

別の方法として、 IAM 認証情報パススルーを使用して、共有クラスターから S3 データへのユーザー固有のアクセスを有効にすることもできます。

クラスター構成を指定する

[クラスターモード] を [標準] に設定します。
[バージョンDatabricks Runtime ランタイム: 6.3 以降] に設定します。
最適化された書き込みと自動コンパクションを有効にするには、次のプロパティを Spark 構成に追加します。
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
統合とスケーリングのニーズに応じてクラスターを構成します。

クラスター構成の詳細については、「コンピュート構成リファレンス」を参照してください。

JDBC URL と HTTP パスを取得するには、ステップの「 Databricks コンピュートリソースの接続の詳細を取得する」を参照してください。

ステップ 3: クラスターに接続するための JDBC および ODBC 接続の詳細を取得する

Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。

JDBC URL
HTTP パス

ステップ 4: Databricks の StreamSets を取得する

StreamSets アカウントをまだお持ちでない場合は、 Databricks の StreamSets にサインアップします。無料で開始し、準備ができたらアップグレードできます。「 StreamSets DataOps プラットフォームの価格」を参照してください。

手順 5: StreamSets を使用してデータを Delta Lake に読み込む方法を学ぶ

サンプルパイプラインから始めるか、 StreamSets ソリューションを確認して、Delta Lake にデータを取り込むパイプラインを構築する方法を学習してください。