Infoworksに接続
このドキュメントは廃止されており、更新されない可能性があります。このコンテンツに記載されている製品、サービス、またはテクノロジはサポートされなくなりました。Infoworks のドキュメントを参照してください。
Infoworks DataFoundry 、 Databricks上でネイティブに実行される自動化されたエンタープライズ データ操作およびオーケストレーション システムです。 また、 Databricksの機能を最大限に活用して、データ オンボーディングのための簡単なソリューションを提供します。これは、データレイクを運用するための重要な最初のステップです。 DataFoundry 、データの取り込みを自動化するだけでなく、分析の基盤を確立するために取り込みに伴う必要がある主要な機能も自動化します。 DataFoundry によるデータオンボーディングにより、次のことが自動化されます。
- データ取り込み: すべてのエンタープライズ、外部データソースから
- データ同期: ソースとデータを同期させる CDC
- データガバナンス: カタログ作成、リネージ、メタデータ管理、監査、および履歴
Infoworks を Databricksで使用するための手順は次のとおりです。
ステップ 1: Databricksの個人アクセス墨を生成する
Infoworks 、 Databricksの個人アクセス権を使用してDatabricksで認証を行います。
自動化されたツール、システム、スクリプト、アプリで認証する際のセキュリティのベストプラクティスとして、DatabricksではOAuth トークンを使用することをお勧めします。
パーソナルアクセストークン認証 を使用する場合、 Databricks では、ワークスペース ユーザーではなく、サービスプリンシパル に属する パーソナルアクセストークン を使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンの管理」を参照してください。
ステップ 2: 統合のニーズをサポートするためのクラスターを設定する
Infoworks は S3 バケットにデータを書き込み、 Databricks 統合クラスターはその場所からデータを読み取ります。 したがって、統合クラスターには、 S3 バケットへの安全なアクセスが必要です。
S3バケットへの安全なアクセス
AWSリソースにアクセスするには、インスタンスプロファイルを使用してDatabricks統合クラスターを起動します。インスタンスプロファイルは、ステージング S3 バケットと、Delta テーブルを書き込むターゲット S3 バケットにアクセスできる必要があります。 インスタンスプロファイルを作成し、ロールを使用するように統合クラスターを設定するには、 チュートリアル: インスタンスプロファイルを使用した S3 アクセスの設定の手順に従います。
別の方法として、 IAM 資格情報パススルーを使用して、共有クラスターから S3 データへのユーザー固有のアクセスを有効にすることもできます。
クラスター構成の指定
-
クラスターモード を 標準 に設定します。
-
Databricksランタイムバージョン をDatabricks ランタイム バージョンに設定します。
-
最適化された書き込みと自動圧縮を有効にするには、次のプロパティをSpark 構成に追加します。
inispark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true -
クラスターは、統合とスケーリングのニーズに応じて構成します。
クラスター構成の詳細については、 コンピュート構成リファレンスを参照してください。
JDBCのURL と HTTP パスを取得する手順については、「 Databricksコンピュート リソースの接続の詳細を取得する 」を参照してください。
手順 3: クラスターに接続するための JDBC 接続の詳細と ODBC を取得する
DatabricksクラスターをInfoworksに接続するには、次のJDBC/ODBC接続プロパティが必要です。
- JDBCのURL
- HTTPパス
ステップ 4: Databricks用のInfoworksを入手する
詳細とデモについては、 Infoworksにアクセスしてください。