Implementar processamento de dados e análise de fluxo de trabalho com Jobs
O senhor pode usar um Job Databricks para orquestrar seu processamento de dados, aprendizado de máquina ou pipeline de análise de dados na plataforma Databricks. Databricks Os trabalhos oferecem suporte a vários tipos de carga de trabalho, incluindo Notebook, scripts, pipeline DLT, consultas Databricks SQL e dbt projetos. Os artigos a seguir orientam o senhor a usar o recurso e as opções do Databricks Jobs para implementar seu pipeline de dados.
O senhor pode usar Databricks ativo Bundles para definir e gerenciar programaticamente seu trabalho. Veja o que são Databricks ativo Bundles? e Desenvolva um trabalho em Databricks usando Databricks ativo Bundles.
Use dbt transformações em um trabalho
Use o tipo de tarefa dbt
se estiver fazendo transformações de dados com um projeto principal dbt e quiser integrar esse projeto em um Job Databricks, ou se quiser criar novas transformações dbt e executar essas transformações em um Job. Consulte Usar dbt transformações em um trabalho Databricks.
Usar um pacote Python em um trabalho
Python wheel são uma forma padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. O senhor pode criar facilmente um trabalho que use o pacote de código Python como um arquivo Python wheel com o tipo de tarefa Python wheel
. Consulte Usar um arquivo Python wheel em um trabalho Databricks.
Use o código pacote em um JAR
A biblioteca e os aplicativos implementados em uma linguagem JVM, como Java e Scala, são normalmente empacotados em um arquivo Java (JAR). Databricks O Jobs suporta pacote de códigos em um JAR com o tipo de tarefa JAR
. Consulte Usar um JAR em um trabalho Databricks.
Organize seu trabalho com Apache Airflow
Databricks recomenda o uso do Databricks Jobs para orquestrar seu fluxo de trabalho. No entanto, o Apache Airflow é comumente usado como um sistema de orquestração de fluxo de trabalho e oferece suporte nativo para Databricks Jobs. Enquanto o Databricks Jobs fornece uma interface de usuário visual para criar seu fluxo de trabalho, o Airflow usa arquivos Python para definir e implantar seu pipeline de dados. Para obter um exemplo de criação e execução de um trabalho com Airflow, consulte Orquestrar Databricks Trabalho com Apache Airflow .