Ingira dados do armazenamento de objetos na nuvem

Este artigo lista as maneiras pelas quais o senhor pode configurar a ingestão incremental do armazenamento de objetos na nuvem.

Adicionar dados UI

Para saber como usar a UI de adição de dados para criar uma tabela gerenciar a partir de dados no armazenamento de objetos na nuvem, consulte Carregar uso de dados em Unity Catalog local externo.

Notebook ou editor SQL

Esta seção descreve as opções para configurar a ingestão incremental do armazenamento de objetos na nuvem usando um Notebook ou o editor Databricks SQL.

Auto Loader

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem, sem necessidade de configuração adicional. Auto Loader fornece uma fonte de transmissão estruturada chamada cloudFiles. Com um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a fonte cloudFiles processa automaticamente novos arquivos à medida que eles chegam, com a opção de também processar os arquivos existentes nesse diretório.

COPY INTO

Com o COPY INTO, os usuários de SQL podem ingerir dados de forma idempotente e incremental do armazenamento de objetos na nuvem em tabelas Delta. O senhor pode usar COPY INTO em Databricks SQL, Notebook e LakeFlow Jobs.

Quando usar o COPY INTO e quando usar o Auto Loader

Aqui estão alguns aspectos a serem considerados ao escolher entre Auto Loader e COPY INTO:

Se você for ingerir arquivos da ordem de milhares ao longo do tempo, você pode usar COPY INTO. Se o senhor estiver esperando arquivos da ordem de milhões ou mais ao longo do tempo, use o Auto Loader. O Auto Loader requer menos operações totais para descobrir arquivos em comparação com o COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Auto Loader é menos dispendioso e mais eficiente em escala.
Se o seu esquema de dados for evoluir com frequência, o Auto Loader oferece tipos de dados primitivos melhores para a inferência e a evolução do esquema. Consulte Configurar a inferência e a evolução do esquema no Auto Loader para obter mais detalhes.
Carregar um subconjunto de arquivos de reenvio pode ser um pouco mais fácil de gerenciar com COPY INTO. Com o Auto Loader, é mais difícil reprocessar um subconjunto selecionado de arquivos. No entanto, o senhor pode usar COPY INTO para recarregar o subconjunto de arquivos enquanto uma transmissão Auto Loader estiver sendo executada simultaneamente.
Para uma experiência de ingestão de arquivos ainda mais dimensionável e robusta, o Auto Loader permite que os usuários do SQL aproveitem as tabelas de transmissão. Consulte Usar tabelas de transmissão em Databricks SQL.

Para obter uma breve visão geral e demonstração do Auto Loader e COPY INTO, assista ao seguinte vídeo do YouTube (2 minutos).

Automatize ETL com o pipeline declarativo LakeFlow Spark e Auto Loader

Você pode simplificar a implantação de infraestrutura de ingestão incremental e escalável com Auto Loader e o pipeline declarativo LakeFlow Spark . O pipeline declarativo LakeFlow Spark não utiliza a execução interativa padrão encontrada no Notebook, em vez disso, enfatiza a implantação de infraestrutura pronta para produção.

Ferramentas de ingestão de terceiros

Databricks valida as integrações do parceiro tecnológico que permitem que o senhor faça a ingestão de várias fontes, incluindo o armazenamento de objetos na nuvem. Essas integrações permitem a ingestão de dados escalonáveis e com pouco código de uma variedade de fontes na Databricks. Ver parceiro tecnológico. Alguns parceiros tecnológicos são apresentados em What is Databricks Partner Connect?, que fornece uma interface de usuário que simplifica a conexão de ferramentas de terceiros aos seus dados do lakehouse.

Adicionar dados UI​

Notebook ou editor SQL​

Auto Loader​

COPY INTO​

Quando usar o COPY INTO e quando usar o Auto Loader​

Automatize ETL com o pipeline declarativo LakeFlow Spark e Auto Loader​

Ferramentas de ingestão de terceiros​