Data engineering do Databricks

Os recursos de data engineering do Databricks são um ambiente robusto para a colaboração entre cientistas de dados, engenheiros de dados e analistas de dados. As tarefas de engenharia de dados também são a espinha dorsal das soluções de aprendizado de máquina do Databricks.

Observação

Se você é um analista de dados que trabalha principalmente com consultas SQL e ferramentas de BI, talvez prefira o Databricks SQL.

A documentação de engenharia de dados fornece orientações sobre como fazer para ajudá-lo a tirar o máximo proveito da plataforma de análise colaborativa do Databricks.Para tutoriais de introdução e informações introdutórias, consulte Introdução: configuração da conta e do workspace e O que é o Databricks?.

  • Delta Live Tables

    Saiba como criar pipelines de dados para ingestão e transformação com Databricks Delta Live Tables.

  • Transmissão Estruturada

    Saiba mais sobre cargas de trabalho de streaming, incrementais e em tempo real impulsionadas pelo Structured Streaming no Databricks.

  • Apache Spark

    Saiba como o Apache Spark funciona no Databricks e na plataforma Databricks.

  • Computação

    Saiba mais sobre os tipos de Databricks compute disponíveis em seu workspace.

  • Notebooks

    Saiba o que é um notebook do Databricks e como usar e gerenciar notebooks para processar, analisar e visualizar seus dados.

  • Fluxos de trabalho

    Aprenda como orquestrar o fluxo de trabalho de processamento de dados, machine learning e análise de dados na Databricks Data Intelligence Platform.

  • Bibliotecas

    Aprenda como disponibilizar código de terceiros ou personalizado no Databricks usando bibliotecas. Saiba mais sobre os diferentes modos de instalação de bibliotecas no Databricks.

  • Init scripts

    Saiba como usar scripts de inicialização (init) para instalar pacotes e bibliotecas, definir propriedades do sistema e variáveis de ambiente, modificar parâmetros de configuração do Apache Spark e definir outras configurações em clusters do Databricks.

  • Pastas do Git

    Aprenda a usar o Git para controlar a versão de seus notebooks e outros arquivos para desenvolvimento no Databricks.

  • DBFS

    Saiba mais sobre o Sistema de Arquivos Databricks (DBFS), um sistema de arquivos distribuído montado em um espaço de trabalho Databricks e disponível em clusters Databricks.

  • Arquivos

    Saiba mais sobre as opções de trabalhos com arquivos no Databricks.

  • Migração

    Aprenda a migrar aplicativos de dados, como jobs de ETL, data warehouses corporativos, ML, ciência de dados e análises para o Databricks.

  • Otimização e desempenho

    Saiba mais sobre otimizações e recomendações de desempenho no Databricks.