Data engineering do Databricks

Databricks O recurso de engenharia de dados inclui um ambiente robusto para colaboração entre data scientists, engenheiros e analistas. Os dados da engenharia de tarefas também são a espinha dorsal das Databricks machine learning soluções.

Observação

Se você é um analista de dados que trabalha principalmente com consultas SQL e ferramentas de BI, talvez prefira o Databricks SQL.

A documentação de engenharia de dados fornece orientações sobre como fazer para ajudá-lo a tirar o máximo proveito da plataforma de análise colaborativa do Databricks.Para tutoriais de introdução e informações introdutórias, consulte Introdução: configuração da conta e do workspace e O que é o Databricks?.

  • Delta Live Tables

    Saiba como criar pipelines de dados para ingestão e transformação com Databricks Delta Live Tables.

  • Transmissão Estruturada

    Saiba mais sobre cargas de trabalho de streaming, incrementais e em tempo real impulsionadas pelo Structured Streaming no Databricks.

  • Apache Spark

    Saiba como o Apache Spark funciona no Databricks e na plataforma Databricks.

  • Notebooks

    Saiba o que é um notebook do Databricks e como usar e gerenciar notebooks para processar, analisar e visualizar seus dados.

  • Fluxos de trabalho

    Aprenda como orquestrar o fluxo de trabalho de processamento de dados, machine learning e análise de dados na Databricks Data Intelligence Platform.

  • Trabalhar com arquivos

    Saiba mais sobre as opções de trabalhos com arquivos no Databricks.

  • Pastas do Git

    Aprenda a usar o Git para controlar a versão de seus notebooks e outros arquivos para desenvolvimento no Databricks.

  • Bibliotecas

    Aprenda como disponibilizar código de terceiros ou personalizado no Databricks usando bibliotecas. Saiba mais sobre os diferentes modos de instalação de bibliotecas no Databricks.

  • Init scripts

    Saiba como usar scripts de inicialização (init) para instalar pacotes e bibliotecas, definir propriedades do sistema e variáveis de ambiente, modificar parâmetros de configuração do Apache Spark e definir outras configurações em clusters do Databricks.

  • Migração

    Aprenda a migrar aplicativos de dados, como jobs de ETL, data warehouses corporativos, ML, ciência de dados e análises para o Databricks.

  • Otimização e desempenho

    Saiba mais sobre otimizações e recomendações de desempenho no Databricks.

  • DBFS

    Saiba mais sobre o Sistema de Arquivos Databricks (DBFS), um sistema de arquivos distribuído montado em um espaço de trabalho Databricks e disponível em clusters Databricks.