メインコンテンツまでスキップ

SharePointからデータを取り込む

備考

ベータ版

この機能はベータ版です。ワークスペース管理者は、 プレビュー ページからこの機能へのアクセスを制御できます。「Databricks プレビューの管理」を参照してください。

このページではLakeFlow Connectを使用してマネージドMicrosoft SharePoint インジェスト パイプラインを作成する方法を示します。

始める前に

  • 取り込みパイプラインを作成するには、まず次の要件を満たす必要があります。

    • ワークスペースでUnity Catalogが有効になっている必要があります。

    • サーバレス コンピュートは、ワークスペースで有効にする必要があります。 サーバレス コンピュートの要件を参照してください。

    • 新しい接続を作成する場合:メタストアに対してCREATE CONNECTION権限が必要です。Unity Catalogの「権限の管理」を参照してください。

      コネクタが UI ベースのパイプライン オーサリングをサポートしている場合、管理者はこのページのステップを完了することで、接続とパイプラインを同時に作成できます。 ただし、パイプラインを作成するユーザーが API ベースのパイプライン オーサリングを使用している場合、または管理者以外のユーザーである場合、管理者はまずカタログ エクスプローラーで接続を作成する必要があります。 「管理対象取り込みソースへの接続」を参照してください。

    • 既存の接続を使用する予定の場合: 接続オブジェクトに対する USE CONNECTION 権限または ALL PRIVILEGES が必要です。

    • ターゲット・カタログに対する USE CATALOG 権限が必要です。

    • 既存のスキーマに対する USE SCHEMA 権限と CREATE TABLE 権限、またはターゲット・カタログに対する CREATE SCHEMA 権限が必要です。

  • SharePoint から取り込むには、まずサポートされている認証方法を構成する必要があります。SharePoint 取り込みセットアップの概要を参照してください。

取り込みパイプラインを作成する

  1. 次のノートブックをワークスペースにインポートします。
ノートブックを新しいタブで開く
  1. セル 1 のデフォルト値はそのままにしておきます。このセルは変更しないでください。

  2. SharePoint サイト内のすべてのドライブを取り込む場合は、セル 2 のスキーマ仕様を変更します。SharePoint サイト内の一部のドライブのみを取り込む場合は、セル 2 を削除し、代わりにセル 3 のテーブル仕様を変更します。

    channelを変更しないでください。これは PREVIEWする必要があります。

  3. すべて実行 」をクリックします。

パイプライン定義テンプレート

SharePoint サイト内のすべてのドライブを取り込む場合は、パイプライン定義のスキーマ仕様形式を使用します。SharePoint サイト内の一部のドライブのみを取り込む場合は、代わりにテーブル仕様定義形式を使用します。channelを変更しないでください。これは PREVIEWする必要があります。

変更するスキーマ仕様値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
  • source_schema: SharePoint サイト ID。
  • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用するSCDメソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。

スキーマ仕様テンプレート:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

変更するテーブル仕様値:

  • name: パイプラインの一意の名前。
  • connection_name: SharePoint の認証詳細を保存する Unity Catalog 接続。
  • source_schema: SharePoint サイト ID。
  • source_table: SharePoint ドライブ名。
  • destination_catalog: データを保存する場所
  • destination_catalog: 取り込まれたデータが含まれる宛先カタログの名前。
  • destination_schema: 取り込まれたデータを含む宛先スキーマの名前。
  • scd_type: 使用するSCDメソッド: SCD_TYPE_1 または SCD_TYPE_2。デフォルトは SCD タイプ 1 です。詳細については、 情報 「履歴追跡を有効にする (SCD タイプ 2)」を参照してください。

テーブル仕様テンプレート:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

一般的なパターン

高度なパイプライン構成については、 「管理された取り込みパイプラインの一般的なパターン」を参照してください。

次のステップ

  • パイプラインを開始、スケジュールし、アラートを設定します。一般的なパイプラインメンテナンスタスクを参照してください。
  • 生のドキュメントをテキストに解析したり、解析されたデータをチャンク化したり、チャンクから埋め込みを作成したりできます。その後、出力テーブルで readStream をダウンストリーム パイプラインで直接使用できます。「ダウンストリームRAGの使用例」を参照してください。

追加のリソース