メインコンテンツまでスキップ

Infoworksへの接続

備考

プレビュー

この機能は パブリック プレビュー段階です。

Infoworks DataFoundryは、Databricks上でネイティブに実行される自動化されたエンタープライズデータ運用およびオーケストレーションシステムです また、Databricks のフルパワーを活用して、データレイクを運用するための重要な第一歩であるデータオンボーディングのための簡単なソリューションを提供します。DataFoundry は、データ取り込みを自動化するだけでなく、インジェストに伴う主要な機能も自動化して、アナリティクスの基盤を確立します。DataFoundryによるデータオンボーディングは、以下を自動化します。

  • データ取り込み: すべてのエンタープライズ、外部データソースから
  • データ同期: ソースとデータの同期を維持するための CDC
  • データガバナンス:カタログ化、リネージ、メタデータ管理、監査、履歴

Infoworks を Databricksで使用するための手順は次のとおりです。

手順 1: Databricks 個人用アクセス トークンを生成する

Infoworks は、Databricks の個人用アクセス トークンを使用して Databricks で認証します。

注記

自動化されたツール、システム、スクリプト、アプリで認証する際のセキュリティのベストプラクティスとして、Databricks では OAuth トークンを使用することをお勧めします。

パーソナルアクセストークン認証 を使用する場合、 Databricks では、ワークスペース ユーザーではなく、サービスプリンシパル に属する パーソナルアクセストークン を使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンの管理」を参照してください。

ステップ 2: 統合のニーズをサポートするためのクラスターを設定する

Infoworks は S3 バケットにデータを書き込み、 Databricks 統合クラスターはその場所からデータを読み取ります。 したがって、統合クラスターには、 S3 バケットへの安全なアクセスが必要です。

S3バケットへの安全なアクセス

AWSリソースにアクセスするには、インスタンスプロファイルを使用してDatabricks統合クラスターを起動します。インスタンスプロファイルは、ステージング S3 バケットと、Delta テーブルを書き込むターゲット S3 バケットにアクセスできる必要があります。 インスタンスプロファイルを作成し、ロールを使用するように統合クラスターを設定するには、 チュートリアル: インスタンスプロファイルを使用した S3 アクセスの設定の手順に従います。

別の方法として、 IAM 資格情報パススルーを使用して、共有クラスターから S3 データへのユーザー固有のアクセスを有効にすることもできます。

クラスター構成の指定

  1. クラスターモード標準 に設定します。

  2. Databricksランタイムバージョン をDatabricks ランタイム バージョンに設定します。

  3. 最適化された書き込みと自動圧縮を有効にするには、次のプロパティを Spark 構成に追加します。

    ini
    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
  4. クラスターは、統合とスケーリングのニーズに応じて構成します。

クラスター構成の詳細については、 コンピュート構成リファレンスを参照してください。

JDBCのURL と HTTP パスを取得する手順については、「 Databricksコンピュート リソースの接続の詳細を取得する 」を参照してください。

手順 3: クラスターに接続するための JDBC 接続の詳細と ODBC を取得する

DatabricksクラスターをInfoworksに接続するには、次のJDBC/ODBC接続プロパティが必要です。

  • JDBCのURL
  • HTTPパス

ステップ 4: DatabricksのInfoworksを入手する

Infoworksにアクセスして詳細を確認し、デモを入手してください。

追加のリソース

サポート