Criar um pipeline de ingestão do Microsoft SharePoint
Visualização
O conector do Microsoft SharePoint está em versão beta.
Esta página descreve como criar uma ingestão de Microsoft SharePoint pipeline usando Databricks LakeFlow Connect. As seguintes interfaces são suportadas:
- Databricks Asset Bundles
- APIs da Databricks
- SDKs da Databricks
- CLI do Databricks
Antes de começar
Para criar o pipeline de ingestão, o senhor deve atender aos seguintes requisitos:
-
Seu workspace deve estar habilitado para o Unity Catalog.
-
O compute sem servidor deve estar habilitado para o seu workspace. Consulte Ativar serverless compute .
-
Se você planeja criar uma nova conexão: você deve ter privilégios
CREATE CONNECTION
na metastore.Se o seu conector for compatível com a criação de pipeline com base na interface do usuário, o senhor poderá criar a conexão e o pipeline ao mesmo tempo, concluindo as etapas desta página. No entanto, se o senhor usar a criação de pipeline baseada em API, deverá criar a conexão no Catalog Explorer antes de concluir as etapas desta página. Consulte Conectar-se a fontes de ingestão de gerenciar.
-
Se você planeja usar uma conexão existente: você deve ter privilégios
USE CONNECTION
ouALL PRIVILEGES
no objeto de conexão. -
Você deve ter privilégios
USE CATALOG
no catálogo de destino. -
Você deve ter privilégios
USE SCHEMA
eCREATE TABLE
em um esquema existente ou privilégiosCREATE SCHEMA
no catálogo de destino.
Para ingerir do SharePoint, você deve configurar um dos métodos de autenticação suportados:
Opção 1: Databricks Notebook
- Importe o seguinte Notebook para o site workspace:
Criar uma ingestão do SharePoint pipeline Notebook
-
Deixe os valores de default na célula 1. Não modifique essa célula.
-
Se você quiser ingerir todas as unidades em seu site do SharePoint, modifique a especificação do esquema na célula 2. Se você quiser apenas ingerir algumas unidades em seu site do SharePoint, exclua a célula 2 e, em vez disso, modifique a especificação da tabela na célula 3.
Não modifique
channel
. Isso deve serPREVIEW
.Valores da célula 2 a serem modificados:
name
: Um nome exclusivo para o pipeline.connection_name
: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema
: Seu ID do site do SharePoint.destination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema
: um nome para o esquema de destino que conterá os dados ingeridos.scd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.
Valores da célula 3 a serem modificados:
name
: Um nome exclusivo para o pipeline.connection_name
: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema
: ID do site do SharePoint.source_table
: nomes de drives do SharePoint.destination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema
: um nome para o esquema de destino que conterá os dados ingeridos.destination_table
: se o nome do seu drive tiver espaços ou caracteres especiais, você deverá especificar uma tabela de destino com um nome válido. Por exemplo, se o nome da unidade formy drive
, você deverá especificar um nome de tabela de destino comomy_drive
.scd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.
-
Clique em Executar tudo .
Opção 2: CLI da Databricks
executar o seguinte comando:
databricks pipelines create --json "<pipeline definition or json file path>"
definição de pipeline padrão
Se quiser ingerir todas as unidades do seu site do SharePoint, use o formato de especificação de esquema para a definição do pipeline. Se você quiser ingerir apenas algumas unidades em seu site do SharePoint, use o formato de definição de especificações de tabela. Não modifique channel
. Isso deve ser PREVIEW
.
Valores de especificação do esquema a serem modificados:
name
: Um nome exclusivo para o pipeline.connection_name
: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema
: Seu ID do site do SharePoint.destination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema
: um nome para o esquema de destino que conterá os dados ingeridos.scd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.
Esquema spec padrão:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"schema": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Valores de especificação da tabela a serem modificados:
name
: Um nome exclusivo para o pipeline.connection_name
: A conexão do Unity Catalog que armazena os detalhes de autenticação do SharePoint.source_schema
: ID do site do SharePoint.source_table
: nomes de drives do SharePoint.destination_catalog
: onde você deseja armazenar os dadosdestination_catalog
: um nome para o catálogo de destino que conterá os dados ingeridos.destination_schema
: um nome para o esquema de destino que conterá os dados ingeridos.scd_type
: O método SCD a ser usado:SCD_TYPE_1
ouSCD_TYPE_2
. O site default é SCD tipo 1. Para obter mais informações, consulte história acompanhamento.
Table spec padrão:
pipeline_spec = """
{
"name": "<YOUR_PIPELINE_NAME>",
"ingestion_definition": {
"connection_name": "<YOUR_CONNECTON_NAME>",
"objects": [
{
"table": {
"source_schema": "<YOUR_SHAREPOINT_SITE_ID>",
"source_table": "<YOUR_SHAREPOINT_DRIVE_NAME>",
"destination_catalog": "<YOUR_DATABRICKS_CATALOG>",
"destination_schema": "<YOUR_DATABRICKS_SCHEMA>",
"destination_table": "<NAME"> # e.g., "my_drive",
"table_configuration": {
"scd_type": "SCD_TYPE_1"
}
}
}
]
},
"channel": "PREVIEW"
}
"""
Próximas etapas
- Começar, programar e definir alerta em seu site pipeline.
- Você pode analisar os documentos brutos em texto, fragmentar os dados analisados, criar incorporações a partir dos blocos e muito mais. Em seguida, o senhor pode usar
readStream
na tabela de saída diretamente no pipeline downstream. Veja o caso de uso do Downstream RAG.