Tutorial: Consultar dados com blocos de anotações

Este tutorial orienta você no uso da interface do usuário do Databricks Notebook para criar clusters e um Notebook, criar uma tabela a partir de um dataset, query a tabela e exibir os resultados da query .

Dica

Você também pode usar o provedor Databricks Terraform para criar os recursos deste artigo. Consulte Criar clusters, blocos de anotações e trabalhos com o Terraform.

Requisitos

Observação

Se você não tiver privilégios de controle de cluster, ainda poderá concluir a maioria das passos abaixo, desde que tenha acesso a um cluster.

Na barra lateral esquerda das páginas de aterrissagem, você acessa entidades fundamentais workspace : o workspace, o Catálogo, o fluxo de trabalho e compute. O workspace é a pasta raiz especial que armazena os ativos do Databricks, como Notebook e bibliotecas.

Para obter orientações sobre como navegar em um Notebook do Databricks, consulte Interface e controles Notebook do Databricks.

Etapa 1: criar um cluster

Um cluster é uma coleção de recursos de computação do Databricks. Para criar um cluster:

  1. Na barra lateral, clique em Ícone de computação compute.

  2. Na página Computar, clique em Criar Computar.

  3. Na página Nova compute , selecione 12.2 LTS (Scala 2.12, Spark 3.3.2) ou superior no dropdown da versão do Databricks Runtime.

  4. Clique em Criar cluster.

Etapa 2: Criar um notebook

Um Notebook é uma coleção de células que executam cálculos em clusters Apache Spark. Para obter mais informações sobre como usar Notebook, consulte Introdução ao Databricks Notebook. Para criar um Notebook na workspace:

  1. Na barra lateral, clique em ícone do workspace Espaço de trabalho.

  2. Em sua casa Ícone inicial pasta, clique no azul Botão Adicionar Botão Adicionar > Notebook.

  3. Substitua o nome default do seu Notebook pelo seu próprio título e selecione SQL no menu suspenso de idiomas. Esta seleção determina o idiomadefault do Notebook.

    Escolha o idioma e o título
  4. Anexe o notebook ao cluster que você criou. Clique no seletor de cluster na barra de ferramentas do notebook e selecione seu cluster no menu suspenso. Se você não vir seu cluster, clique em Mais… e selecione o cluster no menu dropdown na caixa de diálogo.

Etapa 3: criar uma tabela

Crie uma tabela usando os dados de um arquivo de dados CSV de amostra disponível em Sample datasets (Conjuntos de dados de amostra), uma coleção de conjuntos de dados montados em O que é o Databricks File System (DBFS), um sistema de arquivos distribuído instalado em clusters do Databricks. Você tem duas opções para criar a tabela.

Opção 1: criar uma tabela Spark a partir dos dados CSV

Utilize essa opção se você deseja iniciar rapidamente e precisa apenas de níveis de desempenho padrão.Copie e cole este trecho de código em uma célula do notebook:

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds USING CSV OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", header "true")

Opção 2: gravar os dados do CSV no formato Delta Lake e criar uma tabela Delta

Delta Lake oferece uma poderosa camada de armazenamento transacional que permite leituras rápidas e outros benefícios. O formato Delta Lake consiste em arquivos Parquet mais um log de transações. Use esta opção para obter o melhor desempenho em operações futuras na mesa.

  1. Leia os dados CSV em um DataFrame e grave no formato Delta Lake. Este comando usa um comando mágico da linguagem Python , que permite intercalar comandos em idiomas diferentes do idioma default Notebook (SQL). Copie e cole este trecho de código em uma célula Notebook :

    %python
    
    diamonds = (spark.read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
    )
    
    diamonds.write.format("delta").mode("overwrite").save("/mnt/delta/diamonds")
    
  2. Crie uma tabela Delta no local armazenado. Copie e cole este trecho de código em uma célula do notebook:

    DROP TABLE IF EXISTS diamonds;
    
    CREATE TABLE diamonds USING DELTA LOCATION '/mnt/delta/diamonds/'
    

Execute células pressionando SHIFT + ENTER. O Notebook se conecta automaticamente aos clusters que você criou na passo 2 e executa o comando na célula.

Etapa 4: consultar a tabela

Execute uma instrução SQL para consultar a tabela para obter o preço médio do diamante por cor.

  1. Para adicionar uma célula ao Notebook, passe o mouse sobre a parte inferior da célula e clique no botão Adicionar célula ícone.

    Adicionar célula
  2. Copie este trecho e cole na célula.

    SELECT color, avg(price) AS price FROM diamonds GROUP BY color ORDER BY COLOR
    
  3. Pressione SHIFT + ENTER. O notebook exibe uma tabela de cores de diamante e preço médio.

    Executar comando

Etapa 5: exibir os dados

Exiba um gráfico do preço médio do diamante por cor.

  1. Próximo da guia Tabela, clique em + e, em seguida, clique em Visualização.

    O editor de visualização é exibido.

  2. No menu suspenso Visualization Type (Tipo de visualização ), verifique se Bar está selecionado.

  3. Desmarque a caixa de seleção Gráfico horizontal .

  4. Altere o tipo de agregação para y colunas de Soma para Média.

  5. Clique em Salvar.

    Gráfico de barras