Microsoft SharePoint インジェスト パイプラインを作成する
プレビュー
Microsoft SharePoint コネクタは ベータ版です。
このページでは、 を使用してMicrosoft SharePoint インジェスト パイプラインを作成する方法について説明します。DatabricksLakeflowコネクト次のインターフェイスがサポートされています。
- Databricksアセットバンドル
- Databricks API
- Databricks SDK
- Databricks CLI
始める前に
インジェスト パイプラインを作成するには、次の要件を満たす必要があります。
-
ワークスペースでUnity Catalogが有効になっている必要があります。
-
サーバレス コンピュートがワークスペースで有効になっている必要があります。 Enable サーバレス コンピュートを参照してください。
-
新しい接続を作成する予定の場合: メタストアに対する
CREATE CONNECTION
権限が必要です。コネクタが UI ベースのパイプラインオーサリングをサポートしている場合は、このページの手順を完了することで、接続とパイプラインを同時に作成できます。ただし、API ベースのパイプラインオーサリングを使用する場合は、このページの手順を完了する前に、Catalog Explorer で接続を作成する必要があります。「管理された取り込みソースに接続する」を参照してください。
-
既存の接続を使用する予定の場合: 接続オブジェクトに対する
USE CONNECTION
権限またはALL PRIVILEGES
が必要です。 -
ターゲット・カタログに対する
USE CATALOG
権限が必要です。 -
既存のスキーマに対する
USE SCHEMA
権限とCREATE TABLE
権限、またはターゲット・カタログに対するCREATE SCHEMA
権限が必要です。
SharePoint から取り込むには、サポートされている認証方法のいずれかを構成する必要があります。
オプション 1: Databricks ノートブック
- 次のノートブックをワークスペースにインポートします。
SharePoint インジェスト パイプライン ノートブックを作成する
-
セル 1 のデフォルト値はそのままにしておきます。このセルは変更しないでください。
-
SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。SharePoint サイト内の一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル仕様を変更します。
channel
を変更しないでください。これはPREVIEW
する必要があります。変更するセル 2 の値:
name
: パイプラインの一意の名前。connection_name
: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema
: SharePoint サイト ID。destination_catalog
: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。
変更するセル 3 の値:
name
: パイプラインの一意の名前。connection_name
: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema
: SharePoint サイト ID。source_table
: SharePoint ドライブ名。destination_catalog
: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。destination_table
: ドライブ名にスペースや特殊文字が含まれている場合は、有効な名前で宛先テーブルを指定する必要があります。たとえば、ドライブ名がmy drive
の場合は、my_drive
のようなデスティネーション テーブル名を指定する必要があります。scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。
-
「 すべて実行 」をクリックします。
オプション 2: Databricks CLI
次のコマンドを実行します。
databricks pipelines create --json "<pipeline definition or json file path>"
パイプライン定義テンプレート
SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ仕様形式を使用します。SharePoint サイト内の一部のドライブのみを取り込む場合は、代わりにテーブル仕様定義形式を使用します。channel
を変更しないでください。これは PREVIEW
する必要があります。
変更するスキーマ仕様値:
name
: パイプラインの一意の名前。connection_name
: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema
: SharePoint サイト ID。destination_catalog
: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。
スキーマ仕様テンプレート:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
]
},
"channel": "PREVIEW"
}
"""
変更するテーブル仕様値:
name
: パイプラインの一意の名前。connection_name
: SharePoint の認証詳細を保存する Unity Catalog 接続。source_schema
: SharePoint サイト ID。source_table
: SharePoint ドライブ名。destination_catalog
: データを保存する場所destination_catalog
: 取り込まれたデータが含まれる宛先カタログの名前。destination_schema
: 取り込まれたデータを含む宛先スキーマの名前。scd_type
: 使用する SCD メソッド:SCD_TYPE_1
またはSCD_TYPE_2
。デフォルトは SCD タイプ 1 です。詳細については、「 履歴追跡」を参照してください。
テーブル仕様テンプレート:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
]
},
"channel": "PREVIEW"
}
"""
次のステップ
- パイプラインでアラートを開始、スケジュール、設定します。
- 生のドキュメントをテキストに解析したり、解析されたデータをチャンク化したり、チャンクから埋め込みを作成したりできます。その後、出力テーブルで
readStream
をダウンストリーム パイプラインで直接使用できます。「ダウンストリームRAGの使用例」を参照してください。