Crie seu primeiro fluxo de trabalho com um job do Databricks

Este artigo demonstra um trabalho do Databricks que orquestra a tarefa de ler e processar uma amostra do dataset. Neste guia de início rápido, você:

  1. Cria um novo notebook e adiciona código para recuperar um conjunto de dados de amostra contendo nomes de bebês populares por ano.

  2. Salve a amostra dataset em Unity Catalog.

  3. Crie um novo Notebook e adicione um código para ler o site dataset de Unity Catalog, filtrá-lo por ano e exibir os resultados.

  4. Cria um novo job e configura duas tarefas utilizando os notebooks.

  5. Execute o job e veja os resultados.

Requisitos

Se o seu workspace estiver habilitado para o Unity Catalog e o serverless Jobs estiver habilitado, em default, a execução do Job no serverless compute. O senhor não precisa de cluster permissão de criação para executar seu trabalho com o compute sem servidor.

Caso contrário, o senhor deve ter permissão de criaçãocluster para criar o trabalho compute ou permissões para todos os recursos compute.

O senhor deve ter um volume no Unity Catalog. Este artigo usa um volume chamado my-volume em um esquema chamado default em um catálogo chamado main. Além disso, o senhor deve ter as seguintes permissões no Unity Catalog:

  • READ VOLUME e WRITE VOLUME, ou ALL PRIVILEGES, para o volume my-volume.

  • USE SCHEMA ou ALL PRIVILEGES para o esquema default.

  • USE CATALOG ou ALL PRIVILEGES para o catálogo main.

Para definir essas permissões, consulte o administrador do Databricks ou os privilégios e objetos protegidos do Unity Catalog.

Crie os notebooks

Recupere e salve dados

Para criar um Notebook para recuperar a amostra dataset e salvá-la em Unity Catalog:

  1. Acesse a página inicial do Databricks, clique em Novo ícone Novo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é automaticamente anexado ao recurso de computação usado mais recentemente.

  2. Se necessário, altere o idioma padrão para Python.

  3. Copie o seguinte código Python e cole-o na primeira célula do notebook.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Ler e exibir dados filtrados

Para criar um notebook para ler e apresentar os dados para filtragem:

  1. Acesse a página inicial do Databricks, clique em Novo ícone Novo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é automaticamente anexado ao recurso de computação usado mais recentemente.

  2. Se necessário, altere o idioma padrão para Python.

  3. Copie o seguinte código Python e cole-o na primeira célula do notebook.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Criar um job

  1. Clique em fluxo de trabalho Icon fluxo de trabalho na barra lateral.

  2. Clique em Botão criar job.

    A aba Tarefas é exibida com a caixa de diálogo Criar tarefa.

    Criar caixa de diálogo da primeira tarefa
  3. Substitua Adicione um nome para o seu trabalho… pelo nome do seu trabalho.

  4. No campo Nome da tarefa, insira um nome para a tarefa; por exemplo, recuperar nomes de bebês.

  5. No menu suspenso Type (Tipo ), selecione Notebook.

  6. Utilize o navegador de arquivos para localizar o primeiro notebook que você criou, clique no nome do notebook e clique em Confirmar.

  7. Clique em Criar tarefa.

  8. Clique em Botão adicionar tarefa abaixo da tarefa que o senhor acabou de criar para adicionar outra tarefa.

  9. No campo Nome da tarefa, insira um nome para a tarefa; por exemplo, filtrar-nomes-bebe.

  10. No menu suspenso Type (Tipo ), selecione Notebook.

  11. Use o explorador de arquivos para localizar o segundo notebook que você criou, clique no nome do notebook e clique em Confirmar.

  12. Clique em Adicionar em Parâmetros. No campo Chave, digite year. No campo Valor, digite 2014.

  13. Clique em Criar tarefa.

Execute o job

Para executar o trabalho imediatamente, clique em Botão executar agora no canto superior direito. O senhor também pode executar o trabalho clicando em executar tab e clicando em executar agora na tabela Execução ativa.

Ver detalhes da execução

  1. Clique na aba Execuções e clique no link da execução na tabela Execuções ativas ou na tabela Execuções concluídas (últimos 60 dias).

  2. Clique em qualquer tarefa para ver o resultado e os detalhes. Por exemplo, clique na tarefa filtrar-nomes-bebe para ver a saída e executar os detalhes da tarefa de filtro:

    Exibir resultados de nomes de filtros

Executar com outros parâmetros

Para executar novamente o job e filtrar nomes de bebês de outro ano:

  1. Clique em Seta azul para baixo ao lado de executar agora e selecione executar agora com parâmetros diferentes ou clique em executar agora com parâmetros diferentes na tabela Execução ativa.

  2. No campo Valor, digite 2015.

  3. Clique em Executar.