Pular para o conteúdo principal

bamboolib

important

Essa documentação foi descontinuada e pode não estar atualizada. bamboolib está obsoleto. Para obter assistência com a geração de código, consulte o Databricks Assistant.

nota

bamboolib é suportado em Databricks Runtime 11.3 LTS e acima.

bamboolib é um componente de interface de Databricks usuário que permite análises e transformações de dados sem código em um notebook. bamboolib ajuda os usuários a trabalharem mais facilmente com seus dados e acelera as tarefas comuns de organização, exploração e visualização de dados. À medida que os usuários realizam esses tipos de tarefas com seus dados, o site bamboolib gera automaticamente o Python código em segundo plano. Os usuários podem compartilhar esse código com outras pessoas, que podem executá-lo em seu próprio Notebook para reproduzir rapidamente a tarefa original. Eles também podem usar o site bamboolib para estender a tarefa original com tarefas de dados adicionais, tudo sem precisar saber codificar. Aqueles que têm experiência com codificação podem estender esse código para criar resultados ainda mais sofisticados.

Nos bastidores, o bamboolib usa o ipywidgets, que é uma estrutura de widget HTML interativo para o kernel do IPython. execução do ipywidgets dentro do kernel do IPython.

Conteúdos

Requisitos

  • Um Databricks notebook, que está anexado a um Databricks cluster com 11.1 ou Databricks Runtime acima.
  • A biblioteca bamboolib deve estar disponível para o Notebook.
    • Para instalar a biblioteca a partir do site PyPI somente em um cluster específico, consulte biblioteca em cluster.
    • Para usar o %pip comando para tornar a biblioteca disponível apenas para um Notebook específico, consulte Notebook-scoped Pythonbiblioteca.

Início rápido

  1. Crie um Python Notebook.

  2. Anexe o Notebook a um clustering que atenda aos requisitos.

  3. Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.

    Python
    %pip install bamboolib
  4. Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    import bamboolib as bam
  5. Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    bam
nota

Como alternativa, o senhor pode imprimir um Pandas DataFrameexistente para exibir bamboolib para uso com esse DataFrame específico.

  1. Continue com key tarefa.

Passeios a passo

O senhor pode usar o site bamboolib sozinho ou com um site existente Pandas DataFrame .

Usar o bamboolib sozinho

Neste passo a passo, o senhor usa o site bamboolib para exibir no Notebook o conteúdo de um conjunto de dados de ventas de exemplo. Em seguida, o senhor experimenta alguns dos códigos do Notebook relacionados que o site bamboolib gera automaticamente para o senhor. O senhor termina consultando e classificando uma cópia do conteúdo do conjunto de dados ventas.

  1. Crie um Python Notebook.

  2. Anexe o Notebook a um clustering que atenda aos requisitos.

  3. Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.

    Python
    %pip install bamboolib
  4. Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    import bamboolib as bam
  5. Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    bam
  6. Clique em Carregar dados fictícios .

  7. No painel Carregar dados fictícios , para Carregar um conjunto de dados fictícios para testar bamboolib , selecione ventas dataset .

  8. Clique em Executar .

  9. Exiba todas as linhas em que item_type é Comida para bebês:

    1. Na lista Ações de pesquisa , selecione Filtrar linhas .
    2. No painel Filtrar linhas , na lista Selecionar (acima de onde ), selecione Selecionar linhas .
    3. Na lista abaixo de onde , selecione item_type .
    4. Na lista Escolher ao lado de item_type , selecione tem valor ( es).
    5. Na caixa Escolher valor (es) ao lado de Tem valor (es) , selecione Comida para bebês .
    6. Clique em Executar .
  10. Copie o código Python gerado automaticamente para essa consulta:

    1. Clique em Copiar código abaixo da visualização dos dados.
  11. Cole e modifique o código:

    1. Na quarta célula do Notebook, cole o código que o senhor copiou. Deve ter a seguinte aparência:
    Python
    import pandas as pd
    df = pd.read_csv(bam.sales_csv)
    # Step: Keep rows where item_type is one of: Baby Food
    df = df.loc[df['item_type'].isin(['Baby Food'])]
    1. Adicione a esse código para que ele exiba apenas as linhas em que order_prio é C e, em seguida, execute a célula:
    Python
    import pandas as pd
    df = pd.read_csv(bam.sales_csv)
    # Step: Keep rows where item_type is one of: Baby Food
    df = df.loc[df['item_type'].isin(['Baby Food'])]

    # Add the following code.
    # Step: Keep rows where order_prio is one of: C
    df = df.loc[df['order_prio'].isin(['C'])]
    df
dica

Em vez de escrever esse código, você também pode fazer a mesma coisa usando bamboolib na terceira célula para exibir apenas as linhas em que order_prio é C . Esta passo é um exemplo de extensão do código que bamboolib gerou automaticamente anteriormente.

  1. Classifique as linhas por região em ordem crescente:

    1. No widget dentro da quarta célula, na lista Ações de pesquisa , selecione Classificar linhas .

    2. No painel Classificar coluna (s) , na lista Escolher coluna , selecione região .

    3. Na lista ao lado da região , selecione ascendente (A-Z ).

    4. Clique em Executar .

nota

Isso equivale a escrever você mesmo o seguinte código:

Python
df = df.sort_values(by=['region'], ascending=[True])
df

Você também poderia ter usado bamboolib na terceira célula para classificar as linhas por região em ordem crescente. Esta passo demonstra como você pode usar bamboolib para estender o código que você escreve. À medida que você usa bamboolib, ele gera automaticamente o código adicional para você em segundo plano, para que você possa estender ainda mais seu código já estendido!

  1. Continue com key tarefa.

Usar o bamboolib com um DataFrame existente

Neste passo a passo, o senhor usará o site bamboolib para exibir em seu Notebook o conteúdo de um arquivo Pandas DataFrame. Este site DataFrame contém uma cópia de um exemplo de conjunto de dados de ventas. Em seguida, o senhor experimenta alguns dos códigos do Notebook relacionados que o site bamboolib gera automaticamente para o senhor. O senhor termina consultando e classificando alguns dos conteúdos do DataFrame.

  1. Crie um Python Notebook.

  2. Anexe o Notebook a um clustering que atenda aos requisitos.

  3. Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.

    Python
    %pip install bamboolib
  4. Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    import bamboolib as bam
  5. Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.

    Python
    import pandas as pd

    df = pd.read_csv(bam.sales_csv)
    df

    Observe que o site bamboolib é compatível apenas com Pandas DataFrames. Para converter um PySpark DataFrame em um Pandas DataFrame, chame toPandas no PySpark DataFrame. Para converter um Pandas API em Spark DataFrame em um Pandas DataFrame, chame to_pandas no Pandas API em Spark DataFrame.

  6. Clique em Show bamboolib UI .

  7. Exiba todas as linhas em que item_type é Comida para bebês:

    1. Na lista Ações de pesquisa , selecione Filtrar linhas .
    2. No painel Filtrar linhas , na lista Selecionar (acima de onde ), selecione Selecionar linhas .
    3. Na lista abaixo de onde , selecione item_type .
    4. Na lista Escolher ao lado de item_type , selecione tem valor ( es).
    5. Na caixa Escolher valor (es) ao lado de Tem valor (es) , selecione Comida para bebês .
    6. Clique em Executar .
  8. Copie o código Python gerado automaticamente para essa consulta. Para fazer isso, clique em Copiar código abaixo da visualização dos dados.

  9. Cole e modifique o código:

    1. Na quarta célula do Notebook, cole o código que o senhor copiou. Deve ter a seguinte aparência:

      Python
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]
    2. Adicione a esse código para que ele exiba apenas as linhas em que order_prio é C e, em seguida, execute a célula:

      Python
      # Step: Keep rows where item_type is one of: Baby Food
      df = df.loc[df['item_type'].isin(['Baby Food'])]

      # Add the following code.
      # Step: Keep rows where order_prio is one of: C
      df = df.loc[df['order_prio'].isin(['C'])]
      df
dica

Em vez de escrever esse código, você também pode fazer a mesma coisa usando bamboolib na terceira célula para exibir apenas as linhas em que order_prio é C . Esta passo é um exemplo de extensão do código que bamboolib gerou automaticamente anteriormente.

  1. Classifique as linhas por região em ordem crescente:

    a. No widget dentro da quarta célula, clique em Classificar linhas .

    1. No painel Classificar coluna (s) , na lista Escolher coluna , selecione região .

    2. Na lista ao lado da região , selecione ascendente (A-Z ).

    3. Clique em Executar .

nota

Isso equivale a escrever você mesmo o seguinte código:

Python
df = df.sort_values(by=['region'], ascending=[True])
df

Você também poderia ter usado bamboolib na terceira célula para classificar as linhas por região em ordem crescente. Esta passo demonstra como você pode usar bamboolib para estender o código que você escreve. À medida que você usa bamboolib, ele gera automaticamente o código adicional para você em segundo plano, para que você possa estender ainda mais seu código já estendido!

  1. Continue com key tarefa.

tarefa principal

Nesta secção:

Adicionar o widget a uma célula

Cenário : O senhor deseja que o widget bamboolib seja exibido em uma célula.

  1. Certifique-se de que o Notebook atende aos requisitos do site bamboolib.

  2. Se bamboolib o ainda não estiver instalado no workspace ou no clustering, execute o seguinte código em uma célula do Notebook, de preferência na primeira célula:

    Python
    %pip install bamboolib
  3. Execute o seguinte código no Notebook, de preferência na primeira ou segunda célula do Notebook:

    Python
    import bamboolib as bam
  4. Opção 1 : Na célula em que o widget deve aparecer, adicione o seguinte código e, em seguida, execute a célula:

    Python
    bam

    O widget aparece na célula abaixo do código.

    Ou:

    Opção 2 : Em uma célula que contém uma referência a um Pandas DataFrameimprima o endereço DataFrame. Por exemplo, dada a seguinte definição DataFrame, execute a célula:

    Python
    import pandas as pd
    from datetime import datetime, date

    df = pd.DataFrame({
    'a': [ 1, 2, 3 ],
    'b': [ 2., 3., 4. ],
    'c': [ 'string1', 'string2', 'string3' ],
    'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
    'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
    })

    df

    O widget aparece na célula abaixo do código.

    Observe que o site bamboolib é compatível apenas com Pandas DataFrames. Para converter um PySpark DataFrame em um Pandas DataFrame, chame toPandas no PySpark DataFrame. Para converter um Pandas API em Spark DataFrame em um Pandas DataFrame, chame to_pandas no Pandas API em Spark DataFrame.

Limpe o widget

Cenário : você deseja limpar o conteúdo de um widget e depois ler novos dados no widget existente.

Opção 1 : executar o seguinte código na célula que contém o widget de destino:

Python
bam

O widget limpa e, em seguida, exibe novamente o Databricks: Read CSV file from DBFS , Databricks: Load database table (Carregar tabela de banco de dados ) e Load dummy data (Carregar dados fictícios ).

nota

Se o erro name 'bam' is not defined aparecer, execute o seguinte código no Notebook (de preferência na primeira célula do Notebook) e tente novamente:

Python
import bamboolib as bam

Opção 2 : Em uma célula que contém uma referência a um Pandas DataFrameimprima novamente o endereço DataFrame executando a célula novamente. O widget é limpo e, em seguida, exibe os novos dados.

Tarefa de carregamento de dados

Nesta secção:

Leia um exemplo do conteúdo do site datasetno widget

Cenário : O senhor deseja ler alguns dados de exemplo no widget, por exemplo, alguns dados de ventas simuladas, para que possa testar a funcionalidade do widget.

  1. Clique em Carregar dados fictícios .
nota

Se Carregar dados fictícios não estiver visível, limpe o widget com a Opção 1 e tente novamente.

  1. No painel Load dummy data ( Carregar dados fictícios ), em Load a dummy data set for testing (Carregar um conjunto de dados fictícios para teste) bamboolib, selecione o nome do dataset que o senhor deseja carregar.

  2. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  3. Clique em Executar .

    O widget exibe o conteúdo do site dataset.

dica

O senhor pode alternar o widget atual para exibir o conteúdo de um exemplo diferente dataset:

  1. No widget atual, clique em Load dummy data (Carregar dados fictícios ) tab.
  2. Siga as passos anteriores para ler o conteúdo do outro datasetde exemplo no widget.

Ler o conteúdo de um arquivo CSV no widget

Cenário : O senhor deseja ler o conteúdo de um arquivo CSV em seu Databricks workspace no widget.

  1. Clique em Databricks: Read CSV file from DBFS (Ler arquivo CSV do DBFS ).
nota

Se o Databricks: Read CSV file from DBFS não estiver visível, limpe o widget com a Opção 1 e tente novamente.

  1. No painel Read CSV from DBFS , navegue até o local que contém o arquivo CSV de destino.

  2. Selecione o arquivo CSV de destino.

  3. Para Dataframe name (Nome do quadro de dados ), digite um nome para o identificador programático do conteúdo do arquivo CSV como a DataFrameou deixe df como o identificador programático default.

  4. Para o separador de valoresCSV , digite o caractere que separa os valores no arquivo CSV ou deixe o caractere , (vírgula) como separador de valores default.

  5. Para Decimal separator (Separador decimal ), digite o caractere que separa os decimais no arquivo CSV ou deixe o . (ponto) como separador do valor default.

  6. Para Limite de linhas: ler as primeiras N linhas - deixe em branco para não haver limite , digite o número máximo de linhas a serem lidas no widget, ou deixe 100000 como o número default de linhas, ou deixe essa caixa em branco para não especificar nenhum limite de linhas.

  7. Clique em Open CSV file (Abrir arquivo CSV ).

    O widget exibe o conteúdo do arquivo CSV, com base nas configurações que o senhor especificou.

dica

O senhor pode alternar o widget atual para exibir o conteúdo de um arquivo CSV diferente:

  1. No widget atual, clique no link Read CSV de DBFS tab.
  2. Siga as passos anteriores para ler o conteúdo do outro arquivo CSV no widget.

Leia o conteúdo de uma tabela de banco de dados no widget

Cenário : O senhor deseja ler o conteúdo de uma tabela de banco de dados no site Databricks workspace no widget.

  1. Clique em Databricks: Carregar tabela do banco de dados .
nota

Se o Databricks: Load database table não estiver visível, limpe o widget com a Opção 1 e tente novamente.

  1. No painel Databricks: Load database table (Carregar tabela de banco de dados ), em Database - leave empty for default database (Banco de dados - deixe em branco para banco de dados ), digite o nome do banco de dados no qual a tabela de destino está localizada ou deixe essa caixa em branco para especificar o default banco de dados.

  2. Em Tabela , insira o nome da tabela de destino.

  3. Para Limite de linhas: ler as primeiras N linhas - deixe em branco para não haver limite , digite o número máximo de linhas a serem lidas no widget, ou deixe 100000 como o número default de linhas, ou deixe essa caixa em branco para não especificar nenhum limite de linhas.

  4. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  5. Clique em Executar .

    O widget exibe o conteúdo da tabela, com base nas configurações que você especificou.

dica

Você pode alternar o widget atual para exibir o conteúdo de uma tabela diferente:

  1. No widget atual, clique no link Databricks: Load database table tab.
  2. Siga as passos anteriores para ler o conteúdo da outra tabela no widget.

Ação de dados tarefa

O bamboolib oferece mais de 50 ações de dados. A seguir, apresentamos algumas das tarefas mais comuns de ação de obtenção de dados.

Nesta secção:

Selecionar colunas

Cenário : você deseja mostrar somente colunas específicas da tabela por nome, tipo de dados ou que correspondam a alguma expressão regular. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar apenas as colunas item_type e sales_channel, ou deseja mostrar apenas as colunas que contêm as cadeias _date em seus nomes.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite select e, em seguida, selecione Selecionar ou eliminar colunas .
    • Selecione Selecionar ou eliminar colunas .
  2. No painel Selecionar ou eliminar colunas, na lista suspensa Escolher, selecione Selecionar.

  3. Selecione os nomes da coluna de destino ou o critério de inclusão.

  4. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  5. Clique em Executar .

Soltar colunas

Cenário : você deseja ocultar colunas específicas da tabela por nome, tipo de dados ou que correspondam a alguma expressão regular. Por exemplo, nas ventas fictícias dataset, o senhor deseja ocultar as colunas order_prio, order_date e ship_date, ou deseja ocultar todas as colunas que contêm apenas valores de data e hora.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite drop e selecione Selecionar ou eliminar colunas .
    • Selecione Selecionar ou eliminar colunas .
  2. No painel Selecionar ou eliminar colunas, na lista suspensa Escolher, selecione Eliminar.

  3. Selecione os nomes da coluna de destino ou o critério de inclusão.

  4. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  5. Clique em Executar .

Filtrar linhas

Cenário : você deseja mostrar ou ocultar linhas específicas da tabela com base em critérios como valores de coluna específicos que estão coincidentes ou ausentes. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar apenas as linhas em que o valor da coluna item_type está definido como Baby Food.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite filtro e selecione Filtrar linhas .
    • Selecione Filtrar linhas .
  2. No painel Filter rows (Filtrar linhas ), na lista suspensa Choose (Selecionar ) acima de where (onde ), selecione Select rows (Selecionar linhas ) ou Drop rows (Soltar linhas ).

  3. Especifique o primeiro critério de filtro.

  4. Para adicionar outro critério de filtro, clique em adicionar condição e especifique o próximo critério de filtro. Repita conforme desejado.

  5. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  6. Clique em Executar .

Classificar linhas

Cenário : você deseja classificar as linhas da tabela com base nos valores em uma ou mais colunas. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar as linhas pelos valores da coluna region em ordem alfabética de A a Z.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite classificar e selecione Classificar linhas .
    • Selecione Classificar linhas .
  2. No painel Classificar coluna (s) , escolha a primeira coluna pela qual classificar e a ordem de classificação.

  3. Para adicionar outro critério de classificação, clique em adicionar coluna e especifique o próximo critério de classificação. Repita conforme desejado.

  4. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  5. Clique em Executar .

Agrupamento de linhas e colunas tarefa

Nesta secção:

Agrupe linhas e colunas por uma única função agregada

Cenário : você deseja mostrar os resultados de linhas e colunas por meio de agrupamentos calculados e deseja atribuir nomes personalizados a esses agrupamentos. Por exemplo, nas ventas fictícias dataset, o senhor deseja agrupar as linhas pelos valores da coluna country, mostrando os números de linhas que contêm o mesmo valor country e dando à lista de contagens calculadas o nome country_count.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite grupo e selecione Agrupar por e agregar (com renomeação ).
    • Selecione Agrupar por e agregar (com renomeação ).
  2. No painel Agrupar por com renomeação de coluna , selecione as colunas pelas quais agrupar o primeiro cálculo e, opcionalmente, especifique um nome para a coluna calculada.

  3. Para adicionar outro cálculo, clique em adicionar cálculo e especifique o próximo cálculo e o nome da coluna. Repita conforme desejado.

  4. Especifique onde armazenar o resultado.

  5. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  6. Clique em Executar .

Agrupe linhas e colunas por várias funções agregadas

Cenário : você deseja mostrar os resultados de linhas e colunas por meio de agrupamentos calculados. Por exemplo, nas ventas fictícias dataset, o senhor deseja agrupar as linhas pelos valores das colunas region, country e sales_channel, mostrando o número de linhas que contêm o mesmo valor region e country por sales_channel, bem como o total_revenue por combinação exclusiva de region, country e sales_channel.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite group e, em seguida, selecione Group by e agregue (default ).
    • Selecione Group by e agregue (default ).
  2. No painel Agrupar por com renomeação de coluna , selecione as colunas pelas quais agrupar e o primeiro cálculo.

  3. Para adicionar outro cálculo, clique em adicionar cálculo e especifique o próximo cálculo. Repita conforme desejado.

  4. Especifique onde armazenar o resultado.

  5. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  6. Clique em Executar .

Remover linhas com valores ausentes

Cenário : você deseja remover qualquer linha que tenha um valor ausente para as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja remover todas as linhas que tenham um valor item_type ausente.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite eliminar ou remover e, em seguida, selecione Eliminar valores ausentes .
    • Selecione Eliminar valores faltantes .
  2. No painel Eliminar valores ausentes , selecione as colunas para remover qualquer linha que tenha um valor ausente para essa coluna.

  3. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  4. Clique em Executar .

Remover linhas duplicadas

Cenário : você deseja remover qualquer linha que tenha um valor duplicado para as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja remover todas as linhas que sejam duplicatas exatas umas das outras.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite eliminar ou remover e selecione Eliminar/remover duplicatas.
    • Selecione Eliminar/remover duplicatas .
  2. No painel Remover duplicatas , selecione as colunas para remover qualquer linha que tenha um valor duplicado para essas colunas e, em seguida, selecione se deseja manter a primeira ou a última linha que tenha o valor duplicado.

  3. Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.

  4. Clique em Executar .

Encontre e substitua valores ausentes

Cenário : Você deseja substituir o valor ausente por um valor de substituição para qualquer linha com as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja substituir qualquer linha com um valor ausente na coluna item_type pelo valor Unknown Item Type.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite localizar ou substituir e selecione Localizar e substituir valores ausentes .
    • Selecione Localizar e substituir valores ausentes .
  2. No painel Substituir valores faltantes , selecione as colunas para substituir os valores ausentes e, em seguida, especifique o valor de substituição.

  3. Clique em Executar .

Crie uma fórmula de coluna

Cenário : você deseja criar uma coluna que usa uma fórmula exclusiva. Por exemplo, nas ventas fictícias dataset, o senhor deseja criar uma coluna chamada profit_per_unit que exiba o resultado da divisão do valor da coluna total_profit pelo valor da coluna units_sold para cada linha.

  1. Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:

    • Digite fórmula e selecione Nova fórmula de coluna .
    • Selecione Nova fórmula de coluna .
  2. No painel Substituir valores faltantes , selecione as colunas para substituir os valores ausentes e, em seguida, especifique o valor de substituição.

  3. Clique em Executar .

Data action história tarefa

Nesta secção:

visualizar a lista de ações realizadas no widget

Cenário : você deseja ver uma lista de todas as alterações feitas no widget, começando pela alteração mais recente.

Clique na história . A lista de ações aparece no painel Histórico de transformações .

Desfazer a ação mais recente realizada no widget

Cenário : você deseja reverter a alteração mais recente feita no widget.

Siga um destes procedimentos:

  • Clique no ícone de seta no sentido anti-horário.
  • Clique em história e no painel História de transformações , clique em Desfazer última passo .

Refaça a ação mais recente realizada no widget

Cenário : você deseja reverter a reversão mais recente que foi feita no widget.

Siga um destes procedimentos:

  • Clique no ícone de seta no sentido horário.
  • Clique em história e no painel História de transformações , clique em Recuperar última passo .

Alterar a ação mais recente realizada no widget

Cenário : você deseja alterar a alteração mais recente que foi feita no widget.

  1. Siga um destes procedimentos:

    • Clique no ícone do lápis.
    • Clique em história e no painel História de transformações , clique em Editar última passo .
  2. Faça a alteração desejada e clique em Executar .

Obtenha o código para recriar programaticamente o estado atual do widget como um DataFrame

Cenário : O senhor deseja obter o código Python que recria programaticamente o estado do widget atual, representado como um Pandas DataFrame. O senhor deseja executar esse código em uma célula diferente desta pasta de trabalho ou em uma pasta de trabalho completamente diferente.

  1. Clique em Obter código .

  2. No painel Exportar código , clique em Copiar código . O código é copiado para a área de transferência do seu sistema.

  3. Cole o código em uma célula diferente nesta pasta de trabalho ou em uma pasta de trabalho diferente.

  4. Escreva um código adicional para trabalhar com esse Pandas DataFrame programaticamente e, em seguida, execute a célula. Por exemplo, para exibir o conteúdo do DataFrame, supondo que o DataFrame seja representado programaticamente por df:

    Python
    # Your pasted code here, followed by...
    df

Limitações

Consulte Limitações conhecidas Databricks Notebook para obter mais informações.

Recurso adicional