Smartsheetからデータを取り込む

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。Databricksのプレビューを管理するを参照してください。

Databricks LakeFlow Connectを使用してマネージド Smartsheet インジェストパイプラインを作成する方法を学びます。

要件

取り込みパイプラインを作成するには、まず以下の要件を満たす必要があります。
- ワークスペースでUnity Catalogが有効になっている必要があります。
- ワークスペースでサーバレスコンピュートを有効にする必要があります。「サーバレスコンピュート要件」を参照してください。
- 新しい接続を作成する場合：メタストアに対してCREATE CONNECTION権限が必要です。Unity Catalogの「権限の管理」を参照してください。
  
  コネクタが UI ベースのパイプラインオーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。ただし、パイプラインを作成するユーザーが API ベースのパイプラインオーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログエクスプローラーで接続を作成する必要があります。「管理対象取り込みソースへの接続」を参照してください。
- 既存の接続を使用する場合：接続オブジェクトに対してUSE CONNECTION権限、またはALL PRIVILEGES権限が必要です。
- 対象カタログに対してUSE CATALOG権限が必要です。
- 既存のスキーマに対してUSE SCHEMAおよびCREATE TABLE権限、または対象カタログに対してCREATE SCHEMA権限が必要です。
Smartsheetから取り込むには、まずSmartsheet 接続を作成するのステップを完了する必要があります。

取り込みパイプラインを作成する

各ソースオブジェクト（シートまたはレポート）は、ストリーミングテーブルに取り込まれます。サポートされているソースオブジェクトタイプの一覧については、「サポートされているソースオブジェクトタイプ」を参照してください。

Databricks UI
Declarative Automation Bundles
Databricks notebook

Databricksワークスペースのサイドバーで、 データ取り込み をクリックします。
「データの追加」 ページで、 「Databricksコネクタ」 の下にある 「Smartsheet」 をクリックします。
取り込みウィザードの接続ページで、Smartsheetのアクセス認証情報を格納する接続を選択します。メタストアに対する CREATE CONNECTION 権限がある場合は、 接続の作成 をクリックして、Smartsheet 接続を作成するに記載されている認証情報を使用して新しい接続を作成できます。
次へをクリックします。
取り込み設定 ページで、パイプラインの名前を入力します。
イベントログを書き込むカタログとスキーマを選択してください。カタログに対してUSE CATALOGとCREATE SCHEMA権限をお持ちの場合は、クリックできます。ドロップダウンメニューから「スキーマを作成」を選択して、新しいスキーマを作成します。
パイプラインの作成および続行 をクリックします。
ソース ページで、取り込むシートまたはレポートを選択します。
保存して続行 をクリックします。
「宛先」 ページで、データをロードするカタログとスキーマを選択します。カタログに対してUSE CATALOGとCREATE SCHEMA権限をお持ちの場合は、クリックできます。ドロップダウンメニューから「スキーマを作成」を選択して、新しいスキーマを作成します。
保存して続行 をクリックします。
（オプション） スケジュールと通知 ページで、 スケジュールを作成します 。宛先テーブルを更新する頻度を設定します。
（オプション）クリック 通知を追加して パイプライン操作の成功または失敗に関する電子メール通知を設定し、 [保存してパイプラインを実行] をクリックします。

宣言的オートメーションバンドルを使用して、Smartsheet パイプラインをコードとして管理します。バンドルにはジョブとタスクの YAML 定義を含めることができ、 Databricks CLIを使用して管理でき、さまざまなターゲットワークスペース (開発、ステージング、本番運用など) で共有して実行できます。詳細については、「宣言的オートメーションバンドルとは何ですか?」を参照してください。。

Databricks CLIを使用してバンドルを作成します。
Bash
```
databricks bundle init
```
バンドルに2つの新しいリソースファイルを追加します。
- パイプライン定義ファイル（例： resources/smartsheet_pipeline.yml ）。パイプライン.ingestion_定義を参照してください。そして例。
- データ取り込みの頻度を制御するジョブ定義ファイル（例： resources/smartsheet_job.yml ）。
Databricks CLIを使用してパイプラインをデプロイします。
Bash
```
databricks bundle deploy
```

例

これらの例を参考に、パイプラインを設定してください。

単一のソースオブジェクトを取り込む

Smartsheetではsource_schemaは常に"default"なります。source_tableは16桁のシートまたはレポートIDで、SmartsheetのURLまたはシートのプロパティで確認できます。

Declarative Automation Bundles
Databricks notebook

以下のパイプライン定義ファイルは、単一のSmartsheetシートを取り込みます。

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_smartsheet:
      name: smartsheet_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <smartsheet-connection>
        objects:
          - table:
              source_schema: default
              source_table: '7483920174635241'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

以下は、単一のソースオブジェクトを取り込むパイプライン仕様の例です。

Python
pipeline_spec = """
{
  "name": "<pipeline-name>",
  "catalog": "<catalog-name-for-event-logs>",
  "schema": "<schema-name-for-event-logs>",
  "ingestion_definition": {
    "connection_name": "<smartsheet-connection>",
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "7483920174635241",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      }
    ]
  },
  "channel": "PREVIEW"
}
"""
create_pipeline(pipeline_spec)

複数のソースオブジェクトを取り込む

Declarative Automation Bundles
Databricks notebook

以下のパイプライン定義ファイルは、複数のシートまたはレポートを取り込みます。

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: ingest_destination_schema

resources:
  pipelines:
    pipeline_smartsheet:
      name: smartsheet_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <smartsheet-connection>
        objects:
          - table:
              source_schema: default
              source_table: '7483920174635241'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
          - table:
              source_schema: default
              source_table: '3219847562038416'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}

以下は、複数のソースオブジェクトを取り込むパイプライン仕様の例です。

Python
pipeline_spec = """
{
  "name": "<pipeline-name>",
  "catalog": "<catalog-name-for-event-logs>",
  "schema": "<schema-name-for-event-logs>",
  "ingestion_definition": {
    "connection_name": "<smartsheet-connection>",
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "7483920174635241",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      },
      {
        "table": {
          "source_schema": "default",
          "source_table": "3219847562038416",
          "destination_catalog": "main",
          "destination_schema": "ingest_destination_schema"
        }
      }
    ]
  },
  "channel": "PREVIEW"
}
"""
create_pipeline(pipeline_spec)

コネクタとテーブルオプションを使用する

connector_optionsとtable_configurationを使用して、スキーマ強制、列選択、行フィルタリングを制御します。

Declarative Automation Bundles
Databricks notebook

以下のパイプライン定義ファイルは、列の除外と行のフィルタリングが設定されたシートを取り込みます。

YAML
variables:
  dest_catalog:
    default: main
  dest_schema:
    default: hr_data

resources:
  pipelines:
    pipeline_smartsheet:
      name: smartsheet_pipeline
      catalog: ${var.dest_catalog}
      schema: ${var.dest_schema}
      ingestion_definition:
        connection_name: <smartsheet-connection>
        connector_options:
          enforce_schema: false
        objects:
          - table:
              source_schema: default
              source_table: '7483920174635241'
              destination_catalog: ${var.dest_catalog}
              destination_schema: ${var.dest_schema}
              destination_table: employee_roster
              table_configuration:
                exclude_columns:
                  - Employee Name
                  - Status
                row_filter: "row_number <= 10 OR Department != 'Engineering'"

以下は、コネクタオプションとテーブル構成を使用したパイプライン仕様の例です。

Python
pipeline_spec = """
{
  "name": "my_smartsheet_pipeline",
  "catalog": "your_pipeline_event_log_catalog_name",
  "schema": "your_pipeline_event_log_schema_name",
  "ingestion_definition": {
    "connection_name": "my_smartsheet_connection",
    "connector_options": {
      "enforce_schema": false
    },
    "objects": [
      {
        "table": {
          "source_schema": "default",
          "source_table": "7483920174635241",
          "destination_catalog": "main",
          "destination_schema": "hr_data",
          "destination_table": "employee_roster",
          "table_configuration": {
            "exclude_columns": ["Employee Name", "Status"],
            "row_filter": "row_number <= 10 OR Department != 'Engineering'"
          }
        }
      }
    ]
  },
  "channel": "PREVIEW"
}
"""
create_pipeline(pipeline_spec)

バンドルジョブ定義ファイル

以下は、宣言型自動化バンドルで使用するジョブ定義ファイルの例です。ジョブは毎日、最後の実行からちょうど 1 日後に実行されます。

YAML
resources:
  jobs:
    smartsheet_dab_job:
      name: smartsheet_dab_job

      trigger:
        periodic:
          interval: 1
          unit: DAYS

      email_notifications:
        on_failure:
          - <email-address>

      tasks:
        - task_key: refresh_pipeline
          pipeline_task:
            pipeline_id: ${resources.pipelines.pipeline_smartsheet.id}

一般的なパターン

高度なパイプライン構成については、「管理された取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

パイプラインの開始、スケジュール設定、アラートの設定を行います。「一般的なパイプラインのメンテナンス作業」を参照してください。

要件​

取り込みパイプラインを作成する​

例​

単一のソースオブジェクトを取り込む​

複数のソースオブジェクトを取り込む​

コネクタとテーブルオプションを使用する​

バンドルジョブ定義ファイル​

一般的なパターン​

次のステップ​

その他のリソース​

要件