Pular para o conteúdo principal

Criar um pipeline de ingestão do Microsoft SharePoint

info

Visualização

O conector do Microsoft SharePoint está em versão beta.

Esta página descreve como criar uma ingestão de Microsoft SharePoint pipeline usando Databricks LakeFlow Connect. As seguintes interfaces são suportadas:

  • Databricks Asset Bundles
  • APIs da Databricks
  • SDKs da Databricks
  • CLI do Databricks

Antes de começar

Para criar o pipeline de ingestão, o senhor deve atender aos seguintes requisitos:

  • Seu workspace deve estar habilitado para o Unity Catalog.

  • O compute sem servidor deve estar habilitado para o seu workspace. Consulte Ativar serverless compute .

  • Se você planeja criar uma nova conexão: você deve ter privilégios CREATE CONNECTION na metastore.

    Se o seu conector for compatível com a criação de pipeline com base na interface do usuário, o senhor poderá criar a conexão e o pipeline ao mesmo tempo, concluindo as etapas desta página. No entanto, se o senhor usar a criação de pipeline baseada em API, deverá criar a conexão no Catalog Explorer antes de concluir as etapas desta página. Consulte Conectar-se a fontes de ingestão de gerenciar.

  • Se você planeja usar uma conexão existente: você deve ter privilégios USE CONNECTION ou ALL PRIVILEGES no objeto de conexão.

  • Você deve ter privilégios USE CATALOG no catálogo de destino.

  • Você deve ter privilégios USE SCHEMA e CREATE TABLE em um esquema existente ou privilégios CREATE SCHEMA no catálogo de destino.

Para ingerir do SharePoint, você deve configurar um dos métodos de autenticação suportados:

Opção 1: Databricks Notebook

  1. Importe o seguinte Notebook para o site workspace:

Criar uma ingestão do SharePoint pipeline Notebook

Open notebook in new tab
  1. Deixe os valores de default na célula 1. Não modifique essa célula.

  2. Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.

    Não modifique channel. Isso deve ser PREVIEW.

    Valores da célula 2 a serem modificados:

    • name: Um nome exclusivo para o pipeline.
    • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
    • source_schema: Seu ID do site do SharePoint.
    • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
    • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
    • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.

    Valores da célula 3 a serem modificados:

    • name: Um nome exclusivo para o pipeline.
    • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
    • source_schema: ID do site do SharePoint.
    • source_table: nomes de drives do SharePoint.
    • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
    • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
    • destination_table: se o nome do seu drive tiver espaços ou caracteres especiais, você deverá especificar uma tabela de destino com um nome válido. Por exemplo, se o nome da unidade for my drive, você deverá especificar um nome de tabela de destino como my_drive.
    • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.
  3. Clique em Executar tudo .

Opção 2: CLI da Databricks

executar o seguinte comando:

databricks pipelines create --json "<pipeline definition or json file path>"

definição de pipeline padrão

Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel. Isso deve ser PREVIEW.

Valores de especificação do esquema a serem modificados:

  • name: Um nome exclusivo para o pipeline.
  • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
  • source_schema: Seu ID do site do SharePoint.
  • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
  • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
  • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.

Esquema spec padrão:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

Valores de especificação da tabela a serem modificados:

  • name: Um nome exclusivo para o pipeline.
  • connection_name: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.
  • source_schema: ID do site do SharePoint.
  • source_table: nomes de drives do SharePoint.
  • destination_catalog: onde você deseja armazenar os dados
  • destination_catalog: um nome para o catálogo de destino que conterá os dados ingeridos.
  • destination_schema: um nome para o esquema de destino que conterá os dados ingeridos.
  • scd_type: O método SCD a ser usado: SCD_TYPE_1 ou SCD_TYPE_2. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.

Table spec padrão:

JSON
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""

Próximas etapas

  • Começar, programar e definir alerta em seu site pipeline.
  • Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar readStream na tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.

Recurso adicional