Criar um pipeline de ingestão do Microsoft SharePoint

info

Visualização

O conector do Microsoft SharePoint está em versão beta.

Esta página descreve como criar uma ingestão de Microsoft SharePoint pipeline usando Databricks LakeFlow Connect. As seguintes interfaces são suportadas:

Databricks Asset Bundles
APIs da Databricks
SDKs da Databricks
CLI do Databricks

Antes de começar

Para criar o pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

Seu workspace deve estar habilitado para o Unity Catalog.
O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.
Se você planeja criar uma nova conexão: você deve ter privilégios CREATE CONNECTION na metastore.

Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.
Se você planeja usar uma conexão existente: você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.
Você deve ter privilégios USE CATALOG no catálogo de destino.
Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir do SharePoint, você deve configurar um dos métodos de autenticação suportados:

Opção 1: Databricks Notebook

Importe o seguinte Notebook para o site workspace:

Criar uma ingestão do SharePoint pipeline Notebook

Open notebook in new tab

Deixe os valores de default na célula 1. Não modifique essa célula.
Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.

Não modifique channel. Isso deve ser PREVIEW.

Valores da célula 2 a serem modificados:
- name: Um nome exclusivo para o pipeline.
- connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
- source_schema: Seu ID do site do SharePoint.
- destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
- destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
- scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Valores da célula 3 a serem modificados:
- name: Um nome exclusivo para o pipeline.
- connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
- source_schema: ID do site do SharePoint.
- source_table: nomes de drives do SharePoint.
- destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
- destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
- destination_table: se o nome do seu drive tiver espaços ou caracteres especiais, você deverá especificar uma tabela de destino com um nome válido. Por exemplo, se o nome da unidade for my drive, você deverá especificar um nome de tabela de destino como my_drive.
- scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Clique em Executar tudo .

Opção 2: CLI da Databricks

executar o seguinte comando:

databricks pipelines create --json "<pipeline definition or json file path>"

definição de pipeline padrão

Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel. Isso deve ser PREVIEW.

Valores de especificação do esquema a serem modificados:

name: Um nome exclusivo para o pipeline.
connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
source_schema: Seu ID do site do SharePoint.
destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).

Esquema spec padrão:

JSON
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Valores de especificação da tabela a serem modificados:

name: Um nome exclusivo para o pipeline.
connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
source_schema: ID do site do SharePoint.
source_table: nomes de drives do SharePoint.
destination_catalog: onde você deseja armazenar os dados
destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).

Table spec padrão:

JSON
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""

Próximas etapas

Começar, programar e definir alerta em seu site pipeline.
Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar readStream na tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.

Antes de começar​

Opção 1: Databricks Notebook​

Criar uma ingestão do SharePoint pipeline Notebook

Opção 2: CLI da Databricks​

definição de pipeline padrão​

Próximas etapas​

Recurso adicional​

Antes de começar

Opção 1: Databricks Notebook

Opção 2: CLI da Databricks

definição de pipeline padrão

Próximas etapas

Recurso adicional