メインコンテンツまでスキップ

Microsoft SharePoint インジェスト パイプラインを作成する

備考

プレビュー

Microsoft SharePoint コネクタは ベータ版です。

このページでは、 を使用してMicrosoft SharePoint インジェスト パイプラインを作成する方法について説明します。DatabricksLakeflowコネクト次のインターフェイスがサポートされています。

  • Databricksアセットバンドル
  • Databricks API
  • Databricks SDK
  • Databricks CLI

始める前に

インジェスト パイプラインを作成するには、次の要件を満たす必要があります。

  • ワークスペースでUnity Catalogが有効になっている必要があります。

  • サーバレス コンピュートがワークスペースで有効になっている必要があります。 Enable サーバレス コンピュートを参照してください。

  • 新しい接続を作成する予定の場合: メタストアに対する CREATE CONNECTION 権限が必要です。

    コネクタが UI ベースのパイプラインオーサリングをサポートしている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。ただし、API ベースのパイプラインオーサリングを使用する場合は、このページの手順を完了する前に、Catalog Explorer で接続を作成する必要があります。「管理された取り込みソースに接続する」を参照してください

  • 既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES が必要です。

  • ターゲット・カタログに対する USE CATALOG 権限が必要です。

  • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット・カタログに対する CREATE SCHEMA 権限が必要です。

SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。

オプション 1: Databricks ノートブック

  1. 次のノートブックをワークスペースにインポートします。

SharePoint インジェスト パイプライン ノートブックを作成する

Open notebook in new tab
  1. セル 1 のデフォルト値はそのままにしておきます。このセルは変更しないでください。

  2. SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。SharePoint サイト内の一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル仕様を変更します。

    channelを変更しないでください。これは PREVIEWする必要があります。

    変更するセル 2 の値:

    • name: パイプラインの一意の名前。
    • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
    • source_schema: SharePoint サイト ID。
    • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
    • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
    • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。

    変更するセル 3 の値:

    • name: パイプラインの一意の名前。
    • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
    • source_schema: SharePoint サイト ID。
    • source_table: SharePoint ドライブ名。
    • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
    • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
    • destination_table: ドライブ名にスペースや特殊文字が含まれている場合は、有効な名前で宛先テーブルを指定する必要があります。たとえば、ドライブ名が my driveの場合は、 my_driveのようなデスティネーション テーブル名を指定する必要があります。
    • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。
  3. すべて実行 」をクリックします。

オプション 2: Databricks CLI

次のコマンドを実行します。

databricks pipelines create --json "<pipeline definition or json file path>"

パイプライン定義テンプレート

SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ仕様形式を使用します。SharePoint サイト内の一部のドライブのみを取り込む場合は、代わりにテーブル仕様定義形式を使用します。channelを変更しないでください。これは PREVIEWする必要があります。

変更するスキーマ仕様値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
  • source_schema: SharePoint サイト ID。
  • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。

スキーマ仕様テンプレート:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
]
},
"channel": "PREVIEW"
}
"""

変更するテーブル仕様値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
  • source_schema: SharePoint サイト ID。
  • source_table: SharePoint ドライブ名。
  • destination_catalog: データを保存する場所
  • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用する SCD メソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。

テーブル仕様テンプレート:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
]
},
"channel": "PREVIEW"
}
"""

次のステップ

追加のリソース

この記事は役に立ちましたか?