Ingerir dados do SharePoint
Beta
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a este recurso na página de Pré-visualizações . Veja as prévias do Gerenciador Databricks.
Esta página mostra como criar um pipeline de ingestão gerenciado Microsoft SharePoint usando LakeFlow Connect.
Antes de começar
-
Para criar o pipeline de ingestão, você deve primeiro atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
O compute sem servidor deve estar habilitado para o seu workspace. Consulte os requisitos do compute sem servidor.
-
Se você planeja criar uma nova conexão: Você deve ter privilégios
CREATE CONNECTIONno metastore. Consulte a seção sobre privilégios de gerenciamento no Unity Catalog.Se o conector oferecer suporte à criação pipeline baseada em interface de usuário, um administrador poderá criar a conexão e o pipeline ao mesmo tempo, concluindo os passos nesta página. No entanto, se os usuários que criam o pipeline usarem a criação pipeline baseada em API ou não forem usuários administradores, um administrador deverá primeiro criar a conexão no Catalog Explorer. Veja Conectar às fontes de ingestão de gerenciar.
-
Se você planeja usar uma conexão existente: você deve ter privilégios
USE CONNECTIONouALL PRIVILEGESno objeto de conexão. -
Você deve ter privilégios
USE CATALOGno catálogo de destino. -
Você deve ter privilégios
USE SCHEMAeCREATE TABLEem um esquema existente ou privilégiosCREATE SCHEMAno catálogo de destino.
-
-
Para importar dados do SharePoint, primeiro você precisa configurar um dos métodos de autenticação compatíveis. Consulte a Visão geral da configuração de ingestão do SharePoint.
Crie um pipeline de ingestão.
- Databricks notebook
- Databricks CLI
- Importe o seguinte Notebook para o site workspace:
-
Deixe os valores de default na célula 1. Não modifique essa célula.
-
Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.
Não modifique
channel. Isso deve serPREVIEW. -
Clique em Executar tudo .
executar o seguinte comando:
databricks pipelines create --json "<pipeline definition or json file path>"
definição de pipeline padrão
Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel. Isso deve ser PREVIEW.
Valores de especificação do esquema a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: Seu ID do site do SharePoint.destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Esquema spec padrão:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Valores de especificação da tabela a serem modificados:
name: Um nome exclusivo para o pipeline.connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema: ID do site do SharePoint.source_table: nomes de drives do SharePoint.destination_catalog: onde você deseja armazenar os dadosdestination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.scd_type: O método SCD a ser usado:SCD_TYPE_1ouSCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte Enable história acompanhamento (SCD type 2).
Table spec padrão:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"catalog": "<YOUR_DATABRICKS_CATALOG>",
"schema": "<YOUR_DATABRICKS_SCHEMA>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Padrões comuns
Para configurações avançadas pipeline , consulte Padrões comuns para gerenciar pipeline de ingestão.
Próximas etapas
- começar, programar e definir alerta em seu pipeline. Consulte Tarefa comum de manutenção pipeline.
- Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar
readStreamna tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.