Pular para o conteúdo principal

Ingerir dados do SharePoint

info

Beta

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.

Esta página mostra como criar um pipeline de ingestão gerenciado Microsoft SharePoint usando LakeFlow Connect.

Antes de começar

  • Para criar o pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:

    • Seu workspace deve estar habilitado para o Unity Catalog.

    • O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.

    • Se você planeja criar uma nova conexão: Você deve ter privilégios CREATE CONNECTION no metastore. Consulte a seção sobre privilégios de gerenciamento no Unity Catalog.

      Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.

    • Se você planeja usar uma conexão existente: você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

    • Você deve ter privilégios USE CATALOG no catálogo de destino.

    • Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

  • Para importar dados do SharePoint, primeiro você precisa configurar um dos métodos de autenticação compatíveis. Consulte a Visão geral da configuração de ingestão do SharePoint.

Crie um pipeline de ingestão.

  1. Importe o seguinte Notebook para o site workspace:
Abrir notebook em uma nova aba
  1. Deixe os valores de default na célula 1. Não modifique essa célula.

  2. Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.

    Não modifique channel. Isso deve ser PREVIEW.

  3. Clique em Executar tudo .

definição de pipeline padrão

Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel. Isso deve ser PREVIEW.

Valores de especificação do esquema a serem modificados:

  • name: Um nome exclusivo para o pipeline.
  • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
  • source_schema: Seu ID do site do SharePoint.
  • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
  • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
  • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).

Esquema spec padrão:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

Valores de especificação da tabela a serem modificados:

  • name: Um nome exclusivo para o pipeline.
  • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
  • source_schema: ID do site do SharePoint.
  • source_table: nomes de drives do SharePoint.
  • destination_catalog: onde você deseja armazenar os dados
  • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
  • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
  • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).

Table spec padrão:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

Padrões comuns

Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.

Próximas etapas

  • começar, programar e definir alerta em seu pipeline. Consulte Tarefa comum de manutenção pipeline.
  • Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar readStream na tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.

Recurso adicional