Microsoft SharePoint インジェスト パイプラインを作成する
プレビュー
Microsoft SharePoint コネクタは ベータ版です。
このページでは、 を使用してMicrosoft SharePoint インジェスト パイプラインを作成する方法について説明します。DatabricksLakeflowコネクト次のインターフェイスがサポートされています。
- Databricksアセットバンドル
- Databricks API
- Databricks SDK
- Databricks CLI
始める前に
インジェスト パイプラインを作成するには、次の要件を満たす必要があります。
- 
ワークスペースでUnity Catalogが有効になっている必要があります。 
- 
サーバレス コンピュートは、ワークスペースで有効にする必要があります。 サーバレス コンピュートの要件を参照してください。 
- 
新しい接続を作成する予定の場合: メタストアに対する CREATE CONNECTION権限が必要です。コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。 
- 
既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION権限またはALL PRIVILEGESが必要です。
- 
ターゲット・カタログに対する USE CATALOG権限が必要です。
- 
既存のスキーマに対する USE SCHEMA権限とCREATE TABLE権限、またはターゲット・カタログに対するCREATE SCHEMA権限が必要です。
SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。
オプション 1: Databricks ノートブック
- 次のノートブックをワークスペースにインポートします。
SharePoint インジェスト パイプライン ノートブックを作成する
- 
セル 1 のデフォルト値はそのままにしておきます。このセルは変更しないでください。 
- 
SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。SharePoint サイト内の一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル仕様を変更します。 channelを変更しないでください。これはPREVIEWする必要があります。変更するセル 2 の値: - name: パイプラインの一意の名前。
- connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
- source_schema: SharePoint サイト ID。
- destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- scd_type: 使用するSCDメソッド:- SCD_TYPE_1または- SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
 変更するセル 3 の値: - name: パイプラインの一意の名前。
- connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
- source_schema: SharePoint サイト ID。
- source_table: SharePoint ドライブ名。
- destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- destination_table: ドライブ名にスペースや特殊文字が含まれている場合は、有効な名前で宛先テーブルを指定する必要があります。たとえば、ドライブ名が- my driveの場合は、- my_driveのようなデスティネーション テーブル名を指定する必要があります。
- scd_type: 使用するSCDメソッド:- SCD_TYPE_1または- SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
 
- 
「 すべて実行 」をクリックします。 
オプション 2: Databricks CLI
次のコマンドを実行します。
databricks pipelines create --json "<pipeline definition or json file path>"
パイプライン定義テンプレート
SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ仕様形式を使用します。SharePoint サイト内の一部のドライブのみを取り込む場合は、代わりにテーブル仕様定義形式を使用します。channelを変更しないでください。これは PREVIEWする必要があります。
変更するスキーマ仕様値:
- name: パイプラインの一意の名前。
- connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
- source_schema: SharePoint サイト ID。
- destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- scd_type: 使用するSCDメソッド:- SCD_TYPE_1または- SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
スキーマ仕様テンプレート:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
変更するテーブル仕様値:
- name: パイプラインの一意の名前。
- connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
- source_schema: SharePoint サイト ID。
- source_table: SharePoint ドライブ名。
- destination_catalog: データを保存する場所
- destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
- destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
- scd_type: 使用するSCDメソッド:- SCD_TYPE_1または- SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
テーブル仕様テンプレート:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
次のステップ
- パイプラインでアラートを開始、スケジュール、設定します。
- 生のドキュメントをテキストに解析したり、解析されたデータをチャンク化したり、チャンクから埋め込みを作成したりできます。その後、出力テーブルで readStreamをダウンストリーム パイプラインで直接使用できます。「ダウンストリームRAGの使用例」を参照してください。