Implemente fluxos de trabalho de processamento e análise de dados com jobs

O senhor pode usar um Job Databricks para orquestrar seu processamento de dados, machine learning, ou pipeline de análise de dados na plataforma Databricks. Databricks Os trabalhos oferecem suporte a vários tipos de carga de trabalho, incluindo Notebook, scripts, pipeline Delta Live Tables, consultas Databricks SQL e dbt projetos. Os artigos a seguir orientam o senhor a usar o recurso e as opções do Databricks Jobs para implementar seu pipeline de dados.

Dica

O senhor pode usar Databricks ativo Bundles para definir e gerenciar programaticamente seu trabalho. Veja o que são Databricks ativo Bundles? e Desenvolva um trabalho em Databricks usando Databricks ativo Bundles.

Transforme, analise e visualize seus dados com um job do Databricks

Você pode usar um job para criar um pipeline de dados que ingere, transforma, analisa e visualiza dados. O exemplo em uso do Databricks SQL em um job do Databricks cria um pipeline que:

  1. Utiliza um script Python para buscar dados utilizando uma API REST.

  2. Usa o Delta Live Tables para ingerir e transformar os dados obtidos e salvar os dados transformados no Delta Lake.

  3. Usa a integração do Jobs com o Databricks SQL para analisar os dados transformados e criar gráficos para visualizar os resultados.

Use transformações dbt em um job

Use o tipo de tarefa dbt se você estiver fazendo transformação de dados com um projeto principal de dbt e quiser integrar esse projeto em um job do Databricks, ou se quiser criar novas transformações de dbt e executar essas transformações em um job. Consulte Usar transformações dbt em uma tarefa do Databricks.

Use um pacote Python em um job

Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um trabalho que use o pacote de código Python como um arquivo Python wheel com o tipo de tarefa Python wheel. Consulte Usar um arquivo Python wheel em um trabalho Databricks .

Usar código empacotado em um JAR

Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, são comumente empacotados em um arquivo Java archive (JAR). O Databricks Jobs oferece suporte ao código empacotado em um JAR com o tipo de tarefa JAR. Consulte Usar um JAR em um job do Databricks.

Organize seus jobs com o Apache Airflow

A Databricks recomenda usar o Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente utilizado como um sistema de orquestração de fluxo de trabalho e oferece compatibilidade nativa para jobs do Databricks. Enquanto o Databricks Jobs oferece uma interface de usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implementar seus pipelines de dados. Para obter um exemplo de criação e execução de um job com o Airflow, consulte Orquestrar jobs do Databricks com o Apache Airflow.