Criar um pipeline de ingestão do Microsoft SharePoint
Visualização
O conector do Microsoft SharePoint está em versão beta.
Esta página descreve como criar uma ingestão de Microsoft SharePoint pipeline usando Databricks LakeFlow Connect. As seguintes interfaces são suportadas:
- Databricks Asset Bundles
 - APIs da Databricks
 - SDKs da Databricks
 - CLI do Databricks
 
Antes de começar
Para criar o pipeline de ingestão, o senhor deve atender aos seguintes requisitos:
- 
Seu workspace deve estar habilitado para o Unity Catalog.
 - 
O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.
 - 
Se você planeja criar uma nova conexão: você deve ter privilégios
CREATE CONNECTIONna metastore.Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.
 - 
Se você planeja usar uma conexão existente: você deve ter privilégios
USE CONNECTIONouALL PRIVILEGESno objeto de conexão. - 
Você deve ter privilégios
USE CATALOGno catálogo de destino. - 
Você deve ter privilégios
USE SCHEMAeCREATE TABLEem um esquema existente ou privilégiosCREATE SCHEMAno catálogo de destino. 
Para ingerir do SharePoint, você deve configurar um dos métodos de autenticação suportados:
Opção 1: Databricks Notebook
- Importe o seguinte Notebook para o site workspace:
 
Criar uma ingestão do SharePoint pipeline Notebook
- 
Deixe os valores de default na célula 1. Não modifique essa célula.
 - 
Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.
Não modifique
channel. Isso deve serPREVIEW.Valores da célula 2 a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: Seu ID do site do SharePoint.destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Valores da célula 3 a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: ID do site do SharePoint.source_table: nomes de drives do SharePoint.destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.destination_table: se o nome do seu drive tiver espaços ou caracteres especiais, você deverá especificar uma tabela de destino com um nome válido. Por exemplo, se o nome da unidade formy drive, você deverá especificar um nome de tabela de destino comomy_drive.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
 - 
Clique em Executar tudo .
 
Opção 2: CLI da Databricks
executar o seguinte comando:
databricks pipelines create --json "<pipeline definition or json file path>"
definição de pipeline padrão
Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel. Isso deve ser PREVIEW.
Valores de especificação do esquema a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: Seu ID do site do SharePoint.destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Esquema spec padrão:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "schema": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
Valores de especificação da tabela a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: ID do site do SharePoint.source_table: nomes de drives do SharePoint.destination_catalog: onde você deseja armazenar os dadosdestination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Table spec padrão:
pipeline_spec = """
{
 "name": "<YOUR_PIPELINE_NAME>",
 "ingestion_definition": {
     "connection_name": "<YOUR_CONNECTON_NAME>",
     "objects": [
        {
          "table": {
            "source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
            "source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
            "destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
            "destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
            "destination_table": "<NAME"> # e.g., "my_drive",
            "table_configuration": {
              "scd_type": "SCD_TYPE_1"
            }
          }
        }
      ]
 },
 "channel": "PREVIEW"
}
"""
Próximas etapas
- Começar, programar e definir alerta em seu site pipeline.
 - Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar 
readStreamna tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.