Ingerir dados em uma lagoa da Databricks

A Databricks oferece uma variedade de maneiras de ajudá-lo a ingerir dados em um lakehouse apoiado pelo Delta Lake. A Databricks recomenda o uso do Auto Loader para a ingestão incremental de dados do armazenamento de objetos em nuvem. A interface do usuário para adicionar dados oferece várias opções para carregar rapidamente arquivos locais ou conectar-se a fontes de dados externas.

Execute sua primeira carga de trabalho de ETL

Se você ainda não usou o Auto Loader no Databricks, comece com um tutorial. Consulte Run your first ETL workload on Databricks(Executar sua primeira carga de trabalho de ETL no Databricks).

Auto Loader

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem, sem necessidade de configuração adicional. O Auto Loader fornece uma fonte de transmissão estruturada chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos na nuvem, a fonte cloudFiles processa automaticamente os novos arquivos à medida que eles chegam, com a opção de também processar os arquivos existentes nesse diretório.

Automatize o ETL com o Delta Live Tables e o Auto Loader

Você pode simplificar a implantação de infraestrutura de ingestão incremental e escalável com Auto Loader e Delta Live Tables. Observe que o Delta Live Tables não usa a execução interativa padrão encontrada no Notebook, enfatizando a implantação de infraestrutura pronta para produção.

Faça o upload de arquivos de dados locais ou conecte fontes de dados externas

Você pode fazer o upload com segurança arquivos de dados locais ou ingerir dados de fontes externas para criar tabelas. Consulte Load data using the add data UI (Carregar dados usando a interface de adição de dados).

Ingerir dados na Databricks usando ferramentas de terceiros

A Databricks valida as integrações de parceiro tecnológico que permitem ao senhor ingerir dados na Databricks. Essas integrações permitem a ingestão de dados escalonáveis e com pouco código de uma variedade de fontes na Databricks. Ver parceiro tecnológico. Alguns parceiros tecnológicos são apresentados no Databricks Partner Connect, que fornece uma interface de usuário que simplifica a conexão de ferramentas de terceiros aos dados do seu lakehouse.

COPY INTO

O COPY INTO permite que os usuários do SQL ingiram dados de forma idempotente e incremental do armazenamento de objetos em nuvem nas tabelas Delta. Ele pode ser usado no Databricks SQL, no Notebook e no Databricks Jobs.

Quando usar o COPY INTO e quando usar o Auto Loader

Aqui estão alguns pontos a serem considerados ao escolher entre Auto Loader e o COPY INTO:

  • Se você for ingerir arquivos na ordem de milhares, poderá usar COPY INTO. Se você espera arquivos da ordem de milhões ou mais ao longo do tempo, use o Auto Loader. O Auto Loader requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Auto Loader é mais barato e mais eficiente em escala.

  • Se o seu esquema de dados for evoluir com frequência, o Auto Loader fornecerá melhores primitivas para a inferência e a evolução do esquema. Consulte Configurar a inferência e a evolução do esquema no Auto Loader para obter mais detalhes.

  • Carregar um subconjunto de arquivosupload pode ser um pouco mais fácil de gerenciar com COPY INTO. Com o Auto Loader, é mais difícil reprocessar um subconjunto selecionado de arquivos. Entretanto, você pode usar COPY INTO para recarregar o subconjunto de arquivos enquanto uma transmissão do Auto Loader está sendo executada simultaneamente.

Para uma breve visão geral e demonstração do Auto Loader, bem como do COPY INTO, assista ao seguinte vídeo do YouTube (2 minutos).

Revisar metadados de arquivo capturados durante a ingestão de dados

O Apache Spark captura automaticamente dados sobre os arquivos de origem durante o carregamento de dados. O Databricks permite acessar esses dados com a coluna de metadados de arquivo.

Fazer upload de exportações de planilhas para a Databricks

Use a página Criar ou modificar tabela a partir da página de carregamento de arquivos para carregar arquivos CSV, TSV ou JSON. Consulte Criar ou modificar uma tabela usando o upload de arquivos.

Migre aplicativos de dados para o Databricks

Migre aplicativos de dados existentes para Databricks para poder trabalhar com dados de vários sistemas de origem em uma única plataforma. Consulte Migrar aplicativos de dados para Databricks.