Get Começar: Import and visualize CSV data from a Notebook

Este get começar artigos orienta o senhor a usar um Databricks Notebook para importar dados de um arquivo CSV que contém dados de nomes de bebês de health.data.ny.gov para o seu volume Unity Catalog usando Python, Scala e R. O senhor também aprenderá a modificar o nome de uma coluna, visualizar os dados e salvar em uma tabela.

Requisitos

Para concluir a tarefa neste artigo, o senhor deve atender aos seguintes requisitos:

Dica

Para obter um Notebook completo para este artigo, consulte Importar e visualizar dados Notebook.

o passo 1: Criar um novo Notebook

Para criar um Notebook em seu workspace:

  1. Clique em Novo ícone New na barra lateral e, em seguida, clique em Notebook.

  2. Na página "Criar Notebook":

    • Especifique um nome exclusivo para o seu notebook.

    • Defina o idioma default para seu Notebook e clique em Confirm, se solicitado.

    • Clique em Connect (Conectar ) e selecione um recurso compute. Para criar um novo recurso de computação, consulte Usar computação.

Para saber mais sobre como criar e gerenciar notebooks, consulte Gerenciar notebooks.

o passo 2: Definir variáveis

Neste passo, o senhor define variáveis para uso no exemplo Notebook que criou neste artigo.

  1. Copie e cole o código a seguir na nova célula vazia do site Notebook. Substitua <catalog-name>, <schema-name> e <volume-name> pelos nomes de catálogo, esquema e volume de um volume do Unity Catalog. Substitua <table_name> por um nome de tabela de sua escolha. O senhor salvará os dados do nome do bebê nessa tabela mais adiante neste artigo.

  2. Pressione Shift+Enter para executar a célula e criar uma nova célula em branco.

    catalog = "<catalog_name>"
    schema = "<schema_name>"
    volume = "<volume_name>"
    download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name = "baby_names.csv"
    table_name = "baby_names"
    path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
    path_tables = catalog + "." + schema
    print(path_tables) # Show the complete path
    print(path_volume) # Show the complete path
    
    val catalog = "<catalog_name>"
    val schema = "<schema_name>"
    val volume = "<volume_name>"
    val download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name = "baby_names.csv"
    table_name = "baby_names"
    val path_volume = s"/Volumes/$catalog/$schema/$volume"
    val path_tables = s"$catalog.$schema.$table_name"
    print(path_volume) // Show the complete path
    print(path_tables) // Show the complete path
    
    catalog <- "<catalog_name>"
    schema <- "<schema_name>"
    volume <- "<volume_name>"
    download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name <- "baby_names.csv"
    table_name <- "baby_names"
    path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
    path_tables <- paste(catalog, ".", schema, sep = "")
    print(path_volume) # Show the complete path
    print(path_tables) # Show the complete path
    

o passo 3: Importar o arquivo CSV

Neste passo, o senhor importa um arquivo CSV que contém dados de nomes de bebês do site health.data.ny.gov para o volume Unity Catalog.

  1. Copie e cole o código a seguir na nova célula vazia do site Notebook. Esse código copia o arquivo rows.csv de health.data.ny.gov para o volume do Unity Catalog usando o comando Databricks dbutuils.

  2. Pressione Shift+Enter para executar a célula e depois passe para a próxima célula.

    dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")
    
    dbutils.fs.cp(download_url, s"$path_volume/$file_name")
    
    dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
    

o passo 4: Carregar os dados do CSV em um DataFrame

Neste passo, o senhor cria um DataFrame chamado df a partir do arquivo CSV que carregou anteriormente no volume Unity Catalog usando o método spark.read.csv.

  1. Copie e cole o código a seguir na nova célula vazia do site Notebook. Esse código carrega os dados do nome do bebê no DataFrame df do arquivo CSV.

  2. Pressione Shift+Enter para executar a célula e depois passe para a próxima célula.

    df = spark.read.csv(f"{path_volume}/{file_name}",
      header=True,
      inferSchema=True,
      sep=",")
    
    val df = spark.read
      .option("header", "true")
      .option("inferSchema", "true")
      .option("delimiter", ",")
      .csv(s"$path_volume/$file_name")
    
    # Load the SparkR package that is already preinstalled on the cluster.
    library(SparkR)
    
    df <- read.df(paste(path_volume, "/", file_name, sep=""),
      source="csv",
      header = TRUE,
      inferSchema = TRUE,
      delimiter = ",")
    

Você pode enviar dados de vários formatos de arquivo compatíveis.

o passo 5: Visualizar dados de Notebook

Neste passo, o senhor usa o método display() para exibir o conteúdo do DataFrame em uma tabela no Notebook e, em seguida, visualiza os dados em um gráfico de palavras cloud no Notebook.

  1. Copie e cole o código a seguir na nova célula vazia Notebook e, em seguida, clique em executar célula para exibir os dados em uma tabela.

    display(df)
    
    display(df)
    
    display(df)
    
  2. Analise os resultados na tabela.

  3. Próximo da guia Tabela, clique em + e, em seguida, clique em Visualização.

  4. No editor de visualização, clique em Visualization Type (Tipo de visualização) e verifique se a opção Word cloud está selecionada.

  5. Na coluna Words (Palavras), verifique se First Name está selecionado.

  6. No limite de frequências, clique em 35.

    palavra cloud chart
  7. Clique em Salvar.

o passo 6: Salvar o site DataFrame em uma tabela

Importante

Para salvar seu DataFrame no Unity Catalog, o senhor deve ter privilégios de tabela CREATE no catálogo e no esquema. Para obter informações sobre permissões em Unity Catalog, consulte Privileges and securable objects em Unity Catalog e gerenciar privilégios em Unity Catalog, e gerenciar privilégios em Unity Catalog.

  1. Copie e cole o código a seguir em uma célula vazia do site Notebook. Esse código remove um espaço no nome da coluna no DataFrame antes de gravar o DataFrame em uma tabela. Caracteres especiais, como espaços, não são permitidos em nomes de colunas. Esse código usa o método Apache Spark withColumnRenamed().

    df = df.withColumnRenamed("First Name", "First_Name")
    df.printSchema
    
    val df_Renamed = df.withColumnRenamed("First Name", "First_Name")
    // when modifying a DataFrame in Scala, you must assign it to a new variable
    df_Renamed.printSchema()
    
    df <- withColumnRenamed(df, "First Name", "First_Name")
    printSchema(df)
    
  2. Copie e cole o código a seguir em uma célula vazia do site Notebook. Esse código salva o conteúdo do DataFrame em uma tabela no Unity Catalog usando a variável de nome da tabela que o senhor definiu no início deste artigo.

    df.write.saveAsTable(f"{path_tables}" + "." + f"{table_name}")
    
    # To overwrite an existing table, use the following code:
    # df.write.mode("overwrite").saveAsTable(f"{path_tables}" + "." + f"{table_name}")
    
    df_Renamedwrite.saveAsTable(s"$path_tables" + "." + s"$table_name")
    
    // To overwrite an existing table, use the following code:
    // df_Renamed.write.mode("overwrite").saveAsTable(s"$path_tables" + "." + s"$table_name")
    
    saveAsTable(df, paste(path_tables, ".", table_name))
    # To overwrite an existing table, use the following code:
    # saveAsTable(df, paste(path_tables, ".", table_name), mode = "overwrite")
    
  3. Para verificar se a tabela foi salva, clique em Catalog (Catálogo ) na barra lateral esquerda para abrir a interface do usuário do Catalog Explorer. Abra seu catálogo e, em seguida, seu esquema para verificar se a tabela aparece.

  4. Clique em sua tabela para view o esquema da tabela na Visão geral tab.

  5. Clique em Sample Data (Dados de amostra ) para view 100 linhas de dados da tabela.

Importar e visualizar dados Notebook

Use o seguinte Notebook para executar os passos deste Getting começar artigos.

Importar dados de CSV usando Python Notebook

Abra o bloco de anotações em outra guia

Importar dados de CSV usando Scala Notebook

Abra o bloco de anotações em outra guia

Importar dados do site CSV usando o R Notebook

Abra o bloco de anotações em outra guia