NetSuiteからデータを取り込む

備考

プレビュー

このページでは、 LakeFlow Connectを使用してマネージド NetSuite インジェストパイプラインを作成する方法を示します。

要件

取り込みパイプラインを作成するには、まず次の要件を満たす必要があります。
- ワークスペースでUnity Catalogが有効になっている必要があります。
- ワークスペースでサーバレスコンピュートを有効にする必要があります。「サーバレスコンピュート要件」を参照してください。
- 新しい接続を作成する場合：メタストアに対してCREATE CONNECTION権限が必要です。Unity Catalogの「権限の管理」を参照してください。
  
  コネクタが UI ベースのパイプラインオーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。ただし、パイプラインを作成するユーザーが API ベースのパイプラインオーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。「管理対象取り込みソースへの接続」を参照してください。
- 既存の接続を使用する場合: 接続オブジェクトに対するUSE CONNECTION権限またはALL PRIVILEGESが必要です。
- ターゲットカタログに対するUSE CATALOG権限が必要です。
- 既存のスキーマに対するUSE SCHEMAおよびCREATE TABLE権限、またはターゲットカタログに対するCREATE SCHEMA権限が必要です。
NetSuiteからデータを取り込むには、まずNetSuite接続の作成のステップを完了する必要があります。

SuiteAnalytics Connect JDBCドライバーをダウンロードする

NetSuite コネクタを使用するには、SuiteAnalytics Connect JDBC ドライバー JAR ファイルを Databricks のボリュームにアップロードする必要があります。サポートされているドライバーバージョンは8.10.147.0 、 8.10.170.0 、および8.10.184.0です。

NetSuite アカウントにログインします。
[設定] ポートレットで、 [アナリティクス接続のセットアップ] を クリックします。
JAR ファイルをローカルマシンにダウンロードします。

ボリュームを作成する

JAR ファイルを保存するためのボリュームを作成します。

「ボリュームの作成」を参照してください。

NetSuite 取り込みパイプラインを作成するユーザーは、このボリュームにアクセスできる必要があります。

JARファイルをボリュームにアップロードします

Databricks UI
Databricks CLI

カタログ ペインで、作成したボリュームに移動します。
ボリュームにアップロードを クリックします。
ダウンロードした JAR ファイルを選択し、 「アップロード」 をクリックします。

Bash
databricks fs cp /local/path/to/NQjc.jar dbfs:/Volumes/<catalog>/<schema>/<volume>/NQjc.jar

取り込みパイプラインを作成する

各ソーステーブルはストリーミングテーブルに取り込まれます。

Databricks UI
Declarative Automation Bundles
Databricks notebook

Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
[データの追加] ページの [Databricks コネクタ] で、 [NetSuite] をクリックします。
取り込みウィザードの接続ページで、NetSuite アクセス認証情報を保存している接続を選択します。メタストアに対して CREATE CONNECTION 権限をお持ちの場合、 接続の作成 をクリックして、『NetSuite 接続の作成』で認証の詳細情報を使用して新しい接続を作成できます。
次へをクリックします。
インジェスチョン設定 ページで、パイプラインの一意の名前を入力します。
イベントログを書き込むカタログとスキーマを選択します。カタログに対してUSE CATALOGとCREATE SCHEMA権限を持っている場合は、クリックできます。新しいスキーマを作成するには、ドロップダウンメニューでスキーマを作成します。
パイプラインの作成および続行 をクリックします。
[ソース] ページで、取り込むテーブルを選択します。
保存して続行 をクリックします。
[宛先] ページで、データをロードするカタログとスキーマを選択します。カタログに対してUSE CATALOGとCREATE SCHEMA権限を持っている場合は、クリックできます。新しいスキーマを作成するには、ドロップダウンメニューでスキーマを作成します。
保存して続行 をクリックします。
（オプション） スケジュールと通知 ページで、 スケジュールを作成します 。宛先テーブルを更新する頻度を設定します。
（オプション）クリック 通知を追加して パイプライン操作の成功または失敗に関する電子メール通知を設定し、 [保存してパイプラインを実行] をクリックします。

Declarative Automation Bundle を使用して、NetSuite パイプラインをコードとして管理します。バンドルにはジョブとタスクの YAML 定義を含めることができ、 Databricks CLIを使用して管理でき、さまざまなターゲットワークスペース (開発、ステージング、本番運用など) で共有して実行できます。詳細については、「宣言的オートメーションバンドルとは何ですか?」を参照してください。。

Databricks CLIを使用してバンドルを作成します。
Bash
```
databricks bundle init
```
バンドルに 2 つの新しいリソースファイルを追加します。
- パイプライン定義ファイル (例: resources/netsuite_pipeline.yml )。パイプライン.ingestion_定義を参照してください。および例。
- データ取り込みの頻度を制御するジョブ定義ファイル (例: resources/netsuite_job.yml )。
Databricks CLI を使用してパイプラインをデプロイします。
Bash
```
databricks bundle deploy
```

例

これらの例を使用してパイプラインを構成します。

単一のソーステーブルを取り込む

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは、単一のソーステーブルを取り込みます。

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

# The main pipeline for netsuite_dab
resources:
  pipelines:
    pipeline_netsuite:
      name: netsuite_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <netsuite-connection>
        netsuite_jar_path: /Volumes/<catalog>/<schema>/<volume>/NQjc.jar
        objects:
          # An array of objects to ingest from NetSuite. This example ingests the transaction table.
          - table:
              source_schema: default
              source_table: transaction
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

次のパイプライン仕様は、単一のソーステーブルを取り込みます。

Python
##### FIELDS TO EDIT ######
pipeline_name = "<pipeline-name>"
connection_name = "<netsuite-connection>"
destination_catalog = "main"
destination_schema = "ingest_destination_schema"
source_tables = ["transaction"]

# The Netsuite JAR needs to be stored in a volume.
netsuite_jar_path = "/Volumes/<catalog>/<schema>/<volume>/NQjc.jar"

###### FIELDS NOT TO EDIT ######
source_schema = "default"

複数のソーステーブルを取り込む

Declarative Automation Bundles
Databricks notebook

次のパイプライン定義ファイルは、複数のソーステーブルを取り込みます。

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

# The main pipeline for netsuite_dab
resources:
  pipelines:
    pipeline_netsuite:
      name: netsuite_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <netsuite-connection>
        netsuite_jar_path: /Volumes/<catalog>/<schema>/<volume>/NQjc.jar
        objects:
          # An array of objects to ingest from NetSuite. This example ingests the transaction and account tables.
          - table:
              source_schema: default
              source_table: transaction
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
          - table:
              source_schema: default
              source_table: account
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

次のパイプライン仕様は、複数のソーステーブルを取り込みます。

Python
##### FIELDS TO EDIT ######
pipeline_name = "<pipeline-name>"
connection_name = "<netsuite-connection>"
destination_catalog = "main"
destination_schema = "ingest_destination_schema"
source_tables = ["transaction", "account"]

# The Netsuite JAR needs to be stored in a volume.
netsuite_jar_path = "/Volumes/<catalog>/<schema>/<volume>/NQjc.jar"

###### FIELDS NOT TO EDIT ######
source_schema = "default"

宣言型自動化バンドルのジョブ定義ファイル

Declarative Automation Bundles

以下は、宣言型自動化バンドルで使用するジョブ定義ファイルの例です。ジョブは毎日、最後の実行からちょうど 1 日後に実行されます。

YAML
resources:
  jobs:
    netsuite_dab_job:
      name: netsuite_dab_job

      trigger:
        periodic:
          interval: 1
          unit: DAYS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_netsuite.id}

一般的なパターン

高度なパイプライン構成については、「管理された取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

パイプラインを開始、スケジュールし、アラートを設定します。一般的なパイプラインメンテナンスタスクを参照してください。

要件​

SuiteAnalytics Connect JDBCドライバーをダウンロードする​

ボリュームを作成する​

JARファイルをボリュームにアップロードします​

取り込みパイプラインを作成する​

例​

単一のソーステーブルを取り込む​

複数のソーステーブルを取り込む​

宣言型自動化バンドルのジョブ定義ファイル​

一般的なパターン​

次のステップ​

追加のリソース​

要件