StreamSets への接続
プレビュー
この機能は パブリック プレビュー段階です。
StreamSets は、ライフサイクル全体を通じてデータ フローを管理および監視するのに役立ちます。 StreamSets と Databricks および Delta Lake のネイティブ統合により、さまざまなソースからデータを取得し、パイプラインを簡単に管理できます。
StreamSets の一般的なデモについては、次の YouTube ビデオ (10 分) をご覧ください。
Databricksで StreamSets を使用するための手順は次のとおりです。
手順 1: Databricks 個人用アクセス トークンを生成する
StreamSets は、Databricks の個人用アクセス トークンを使用して Databricks で認証します。
自動化されたツール、システム、スクリプト、アプリで認証する際のセキュリティのベストプラクティスとして、Databricks では OAuth トークンを使用することをお勧めします。
personal access token authentication を使用する場合、 Databricks では、ワークスペース ユーザーではなく 、サービスプリンシパル に属する personal access token を使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンの管理」を参照してください。
ステップ 2: 統合のニーズをサポートするためのクラスターを設定する
StreamSets は S3 バケットにデータを書き込み、 Databricks 統合クラスターはその場所からデータを読み取ります。 したがって、統合クラスターには、 S3 バケットへの安全なアクセスが必要です。
S3バケットへの安全なアクセス
AWSリソースにアクセスするには、インスタンスプロファイルを使用してDatabricks統合クラスターを起動します。インスタンスプロファイルは、ステージング S3 バケットと、Delta テーブルを書き込むターゲット S3 バケットにアクセスできる必要があります。 インスタンスプロファイルを作成し、ロールを使用するように統合クラスターを設定するには、 チュートリアル: インスタンスプロファイルを使用した S3 アクセスの設定の手順に従います。
別の方法として、 IAM 資格情報パススルーを使用して、共有クラスターから S3 データへのユーザー固有のアクセスを有効にすることもできます。
クラスター構成の指定
-
クラスターMode を Standard に設定します。
-
Databricks Runtimeバージョン をRuntime:6.3以降に設定します。
-
最適化された書き込みと自動圧縮を有効にするには、次のプロパティを Spark 構成に追加します。
inispark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true -
クラスターは、統合とスケーリングのニーズに応じて構成します。
クラスター構成の詳細については、 コンピュート構成リファレンスを参照してください。
URL と HTTP パスを取得する手順については、「 Databricksコンピュート リソースの接続の詳細を取得する 」を参照してください。JDBC
手順 3: クラスターに接続するための JDBC 接続の詳細と ODBC を取得する
Databricks クラスターを StreamSets に接続するには、次の JDBC/ODBC 接続プロパティが必要です。
- JDBCのURL
- HTTPパス
ステップ 4: Databricks の StreamSets を取得する
StreamSets アカウントをまだお持ちでない場合は、 StreamSetsfor Databricks に サインアップ します。無料で開始でき、準備ができたらアップグレードできます。 StreamSets DataOps Platform の価格を参照してください。
ステップ 5: StreamSets を使用して Delta Lake にデータを読み込む方法を学ぶ
サンプル パイプラインから始めるか、 StreamSets ソリューション を確認して、Delta Lake にデータを取り込むパイプラインを構築する方法を確認してください。