Implemente fluxos de trabalho de processamento e análise de dados com jobs

O senhor pode usar um Job Databricks para orquestrar seu processamento de dados, machine learning, ou pipeline de análise de dados na plataforma Databricks. Databricks Os trabalhos oferecem suporte a vários tipos de carga de trabalho, incluindo Notebook, scripts, pipeline Delta Live Tables, consultas Databricks SQL e dbt projetos. Os artigos a seguir orientam o senhor a usar o recurso e as opções do Databricks Jobs para implementar seu pipeline de dados.

Transforme, analise e visualize seus dados com um job do Databricks

Você pode usar um job para criar um pipeline de dados que ingere, transforma, analisa e visualiza dados. O exemplo em uso do Databricks SQL em um job do Databricks cria um pipeline que:

  1. Utiliza um script Python para buscar dados utilizando uma API REST.

  2. Usa o Delta Live Tables para ingerir e transformar os dados obtidos e salvar os dados transformados no Delta Lake.

  3. Usa a integração do Jobs com o Databricks SQL para analisar os dados transformados e criar gráficos para visualizar os resultados.

Use transformações dbt em um job

Use o tipo de tarefa dbt se você estiver fazendo transformação de dados com um projeto principal de dbt e quiser integrar esse projeto em um job do Databricks, ou se quiser criar novas transformações de dbt e executar essas transformações em um job. Consulte Usar transformações dbt em uma tarefa do Databricks.

Use um pacote Python em um job

Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um trabalho que use o pacote de código Python como um arquivo Python wheel com o tipo de tarefa Python wheel. Consulte Usar um arquivo Python wheel em um trabalho Databricks .

Usar código empacotado em um JAR

Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, são comumente empacotados em um arquivo Java archive (JAR). O Databricks Jobs oferece suporte ao código empacotado em um JAR com o tipo de tarefa JAR. Consulte Usar um JAR em um job do Databricks.

Usar notebook ou código Python mantido em um repositório central

Uma maneira comum de gerenciar o controle de versão e a colaboração para artefatos de produção é usar um repositório central, como o GitHub. Databricks O Jobs suporta a criação e a execução de trabalhos usando o Notebook ou o código Python importado de um repositório, incluindo as pastas GitHub ou Databricks Git . Consulte Usar código-fonte com controle de versão em um trabalho Databricks .

Organize seus jobs com o Apache Airflow

A Databricks recomenda usar o Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente utilizado como um sistema de orquestração de fluxo de trabalho e oferece compatibilidade nativa para jobs do Databricks. Enquanto o Databricks Jobs oferece uma interface de usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implementar seus pipelines de dados. Para obter um exemplo de criação e execução de um job com o Airflow, consulte Orquestrar jobs do Databricks com o Apache Airflow.