Microsoft SharePoint インジェスト パイプラインを作成する
プレビュー
Microsoft SharePoint コネクタは ベータ版です。
このページでは、 を使用してMicrosoft SharePoint インジェスト パイプラインを作成する方法について説明します。DatabricksLakeflowコネクト次のインターフェイスがサポートされています。
- Databricksアセットバンドル
 - Databricks API
 - Databricks SDK
 - Databricks CLI
 
始める前に
インジェスト パイプラインを作成するには、次の要件を満たす必要があります。
- 
ワークスペースでUnity Catalogが有効になっている必要があります。
 - 
サーバレス コンピュートは、ワークスペースで有効にする必要があります。 サーバレス コンピュートの要件を参照してください。
 - 
新しい接続を作成する予定の場合: メタストアに対する
CREATE CONNECTION権限が必要です。コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。
 - 
既存の接続を使用する予定の場合: 接続オブジェクトに対する
USE CONNECTION権限またはALL PRIVILEGESが必要です。 - 
ターゲット・カタログに対する
USE CATALOG権限が必要です。 - 
既存のスキーマに対する
USE SCHEMA権限とCREATE TABLE権限、またはターゲット・カタログに対するCREATE SCHEMA権限が必要です。 
SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。
オプション 1: Databricks ノートブック
- 次のノートブックをワークスペースにインポートします。
 
SharePoint インジェスト パイプライン ノートブックを作成する
- 
セル 1 のデフォルト値はそのままにしておきます。このセルは変更しないでください。
 - 
SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。SharePoint サイト内の一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル仕様を変更します。
channelを変更しないでください。これはPREVIEWする必要があります。変更するセル 2 の値:
name: パイプラインの一意の名前。connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema: SharePoint サイト ID。destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema: 取り込まれたデータを含む宛先スキーマの名前。scd_type: 使用するSCDメソッド:SCD_TYPE_1またはSCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
変更するセル 3 の値:
name: パイプラインの一意の名前。connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema: SharePoint サイト ID。source_table: SharePoint ドライブ名。destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema: 取り込まれたデータを含む宛先スキーマの名前。destination_table: ドライブ名にスペースや特殊文字が含まれている場合は、有効な名前で宛先テーブルを指定する必要があります。たとえば、ドライブ名がmy driveの場合は、my_driveのようなデスティネーション テーブル名を指定する必要があります。scd_type: 使用するSCDメソッド:SCD_TYPE_1またはSCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
 - 
「 すべて実行 」をクリックします。
 
オプション 2: Databricks CLI
次のコマンドを実行します。
databricks pipelines create --json "<pipeline definition or json file path>"
パイプライン定義テンプレート
SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ仕様形式を使用します。SharePoint サイト内の一部のドライブのみを取り込む場合は、代わりにテーブル仕様定義形式を使用します。channelを変更しないでください。これは PREVIEWする必要があります。
変更するスキーマ仕様値:
name: パイプラインの一意の名前。connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema: SharePoint サイト ID。destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema: 取り込まれたデータを含む宛先スキーマの名前。scd_type: 使用するSCDメソッド:SCD_TYPE_1またはSCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
スキーマ仕様テンプレート:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
変更するテーブル仕様値:
name: パイプラインの一意の名前。connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema: SharePoint サイト ID。source_table: SharePoint ドライブ名。destination_catalog: データを保存する場所destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema: 取り込まれたデータを含む宛先スキーマの名前。scd_type: 使用するSCDメソッド:SCD_TYPE_1またはSCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。
テーブル仕様テンプレート:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
次のステップ
- パイプラインでアラートを開始、スケジュール、設定します。
 - 生のドキュメントをテキストに解析したり、解析されたデータをチャンク化したり、チャンクから埋め込みを作成したりできます。その後、出力テーブルで 
readStreamをダウンストリーム パイプラインで直接使用できます。「ダウンストリームRAGの使用例」を参照してください。