Infoworks への接続

プレビュー

この機能はパブリックプレビュー段階です。

Infoworks DataFoundryは、Databricks上でネイティブに実行され、Databricksのフルパワーを活用して、データレイクを運用するための重要な最初のステップであるデータオンボーディングのための簡単なソリューションを提供する、自動化されたエンタープライズデータ運用およびオーケストレーションシステムです。 DataFoundry は、データ取り込みを自動化するだけでなく、アナリティクスの基盤を確立するためにインジェストに付随する必要がある主要な機能も自動化します。 DataFoundryを使用したデータオンボーディングは、以下を自動化します。

  • データ取り込み: すべてのエンタープライズおよび外部 Data から

  • データ同期:データとソースの同期を維持するCDC

  • データガバナンス: カタログ作成、系列、メタデータ管理、監査、履歴

Infoworks を Databricksで使用するための手順は次のとおりです。

ステップ 1: Databricks 個人用アクセストークン を生成する

Infoworks は、Databricks の個人用アクセストークンを使用して Databricks で認証を行います。

自動化されたツール、システム、スクリプト、アプリを使用して認証する場合のセキュリティのベスト プラクティスとして、Databricks ではOAuth トークンを使用することをお勧めします。

個人のアクセス トークン認証を使用する場合、 Databricksでは、ワークスペース ユーザーではなく、サービスプリンシパルに属する個人のアクセス トークンを使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、 「サービスプリンシパルのトークンの管理」を参照してください。

ステップ 2: 統合のニーズ をサポートするようにクラスターを設定する

Infoworks は S3 バケットにデータを書き込み、Databricks 統合クラスターはその場所からデータを読み取ります。 そのため、統合クラスターには S3 バケットへの安全なアクセスが必要です。

S3 バケット への安全なアクセス

AWS リソースにアクセスするには、インスタンスプロファイルを使用して Databricks 統合クラスターを起動できます。 インスタンスプロファイルには、ステージング S3 バケットと、Delta テーブルを書き込むターゲット S3 バケットにアクセスできる必要があります。 インスタンスプロファイルを作成し、ロールを使用するように統合クラスターを設定するには、「 チュートリアル: インスタンスプロファイルを使用して S3 アクセスを設定する」の手順に従います。

別の方法として、 IAM 認証情報パススルーを使用して、共有クラスターから S3 データへのユーザー固有のアクセスを有効にすることもできます。

クラスター構成 を指定する

  1. [クラスター モード] を [標準] に設定します。

  2. [Databricks Runtime バージョン] を Databricks ランタイム バージョンに設定します。

  3. 最適化された書き込みと自動コンパクションを有効にするには、次のプロパティを Spark 構成に追加します。

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. 統合とスケーリングのニーズに応じてクラスターを構成します。

クラスター構成の詳細については、 「コンピュート構成リファレンス」を参照してください。

JDBC URL と HTTP パスを取得するには、ステップ の「 Databricks コンピュート リソースの接続の詳細を取得する 」を参照してください。

ステップ 3: クラスター に接続するための JDBC および ODBC 接続の詳細を取得する

Databricks クラスターをインフォワークスに接続するには、次の JDBC/ODBC 接続プロパティが必要です。

  • JDBC URL

  • HTTP パス

ステップ 4: Databricks に Infoworks を取得する

Infoworks にアクセスして詳細を確認し、デモを入手してください。

関連リソース

サポート