Data engineering do Databricks
Os recursos de data engineering do Databricks são um ambiente robusto para a colaboração entre cientistas de dados, engenheiros de dados e analistas de dados. As tarefas de engenharia de dados também são a espinha dorsal das soluções de aprendizado de máquina do Databricks.
Observação
Se você é um analista de dados que trabalha principalmente com consultas SQL e ferramentas de BI, talvez prefira o Databricks SQL.
A documentação de engenharia de dados fornece orientações sobre como fazer para ajudá-lo a tirar o máximo proveito da plataforma de análise colaborativa do Databricks.Para tutoriais de introdução e informações introdutórias, consulte Introdução: configuração da conta e do workspace e O que é o Databricks?.
- Delta Live Tables
Saiba como criar pipelines de dados para ingestão e transformação com Databricks Delta Live Tables.
- Transmissão Estruturada
Saiba mais sobre cargas de trabalho de streaming, incrementais e em tempo real impulsionadas pelo Structured Streaming no Databricks.
- Apache Spark
Saiba como o Apache Spark funciona no Databricks e na plataforma Databricks.
- Computação
Saiba mais sobre os tipos de Databricks compute disponíveis em seu workspace.
- Notebooks
Saiba o que é um notebook do Databricks e como usar e gerenciar notebooks para processar, analisar e visualizar seus dados.
- Fluxos de trabalho
Aprenda como orquestrar o fluxo de trabalho de processamento de dados, machine learning e análise de dados na Databricks Data Intelligence Platform.
- Bibliotecas
Aprenda como disponibilizar código de terceiros ou personalizado no Databricks usando bibliotecas. Saiba mais sobre os diferentes modos de instalação de bibliotecas no Databricks.
- Init scripts
Saiba como usar scripts de inicialização (init) para instalar pacotes e bibliotecas, definir propriedades do sistema e variáveis de ambiente, modificar parâmetros de configuração do Apache Spark e definir outras configurações em clusters do Databricks.
- Pastas do Git
Aprenda a usar o Git para controlar a versão de seus notebooks e outros arquivos para desenvolvimento no Databricks.
- DBFS
Saiba mais sobre o Sistema de Arquivos Databricks (DBFS), um sistema de arquivos distribuído montado em um espaço de trabalho Databricks e disponível em clusters Databricks.
- Arquivos
Saiba mais sobre as opções de trabalhos com arquivos no Databricks.
- Migração
Aprenda a migrar aplicativos de dados, como jobs de ETL, data warehouses corporativos, ML, ciência de dados e análises para o Databricks.
- Otimização e desempenho
Saiba mais sobre otimizações e recomendações de desempenho no Databricks.