bamboolib
Essa documentação foi descontinuada e pode não estar atualizada. bamboolib está obsoleto. Para obter assistência com a geração de código, consulte o Databricks Assistant.
bamboolib é suportado em Databricks Runtime 11.3 LTS e acima.
bamboolib é um componente de interface de Databricks usuário que permite análises e transformações de dados sem código em um notebook. bamboolib ajuda os usuários a trabalharem mais facilmente com seus dados e acelera as tarefas comuns de organização, exploração e visualização de dados. À medida que os usuários realizam esses tipos de tarefas com seus dados, o site bamboolib gera automaticamente o Python código em segundo plano. Os usuários podem compartilhar esse código com outras pessoas, que podem executá-lo em seu próprio Notebook para reproduzir rapidamente a tarefa original. Eles também podem usar o site bamboolib para estender a tarefa original com tarefas de dados adicionais, tudo sem precisar saber codificar. Aqueles que têm experiência com codificação podem estender esse código para criar resultados ainda mais sofisticados.
Nos bastidores, o bamboolib usa o ipywidgets, que é uma estrutura de widget HTML interativo para o kernel do IPython. execução do ipywidgets dentro do kernel do IPython.
Conteúdos
Requisitos
- Um Databricks notebook, que está anexado a um Databricks cluster com 11.1 ou Databricks Runtime acima.
- A biblioteca
bamboolib
deve estar disponível para o Notebook.- Para instalar a biblioteca a partir do site PyPI somente em um cluster específico, consulte biblioteca em cluster.
- Para usar o
%pip
comando para tornar a biblioteca disponível apenas para um Notebook específico, consulte Notebook-scoped Pythonbiblioteca.
Início rápido
-
Crie um Python Notebook.
-
Anexe o Notebook a um clustering que atenda aos requisitos.
-
Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.
Python%pip install bamboolib
-
Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonimport bamboolib as bam
-
Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonbam
Como alternativa, o senhor pode imprimir um Pandas DataFrameexistente para exibir bamboolib para uso com esse DataFrame específico.
- Continue com key tarefa.
Passeios a passo
O senhor pode usar o site bamboolib sozinho ou com um site existente Pandas DataFrame .
Usar o bamboolib sozinho
Neste passo a passo, o senhor usa o site bamboolib para exibir no Notebook o conteúdo de um conjunto de dados de ventas de exemplo. Em seguida, o senhor experimenta alguns dos códigos do Notebook relacionados que o site bamboolib gera automaticamente para o senhor. O senhor termina consultando e classificando uma cópia do conteúdo do conjunto de dados ventas.
-
Crie um Python Notebook.
-
Anexe o Notebook a um clustering que atenda aos requisitos.
-
Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.
Python%pip install bamboolib
-
Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonimport bamboolib as bam
-
Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonbam
-
Clique em Carregar dados fictícios .
-
No painel Carregar dados fictícios , para Carregar um conjunto de dados fictícios para testar bamboolib , selecione ventas dataset .
-
Clique em Executar .
-
Exiba todas as linhas em que item_type é Comida para bebês:
- Na lista Ações de pesquisa , selecione Filtrar linhas .
- No painel Filtrar linhas , na lista Selecionar (acima de onde ), selecione Selecionar linhas .
- Na lista abaixo de onde , selecione item_type .
- Na lista Escolher ao lado de item_type , selecione tem valor ( es).
- Na caixa Escolher valor (es) ao lado de Tem valor (es) , selecione Comida para bebês .
- Clique em Executar .
-
Copie o código Python gerado automaticamente para essa consulta:
- Clique em Copiar código abaixo da visualização dos dados.
-
Cole e modifique o código:
- Na quarta célula do Notebook, cole o código que o senhor copiou. Deve ter a seguinte aparência:
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]- Adicione a esse código para que ele exiba apenas as linhas em que order_prio é C e, em seguida, execute a célula:
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]
# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df
Em vez de escrever esse código, você também pode fazer a mesma coisa usando bamboolib na terceira célula para exibir apenas as linhas em que order_prio é C . Esta passo é um exemplo de extensão do código que bamboolib gerou automaticamente anteriormente.
-
Classifique as linhas por região em ordem crescente:
-
No widget dentro da quarta célula, na lista Ações de pesquisa , selecione Classificar linhas .
-
No painel Classificar coluna (s) , na lista Escolher coluna , selecione região .
-
Na lista ao lado da região , selecione ascendente (A-Z ).
-
Clique em Executar .
-
Isso equivale a escrever você mesmo o seguinte código:
df = df.sort_values(by=['region'], ascending=[True])
df
Você também poderia ter usado bamboolib na terceira célula para classificar as linhas por região em ordem crescente. Esta passo demonstra como você pode usar bamboolib para estender o código que você escreve. À medida que você usa bamboolib, ele gera automaticamente o código adicional para você em segundo plano, para que você possa estender ainda mais seu código já estendido!
- Continue com key tarefa.
Usar o bamboolib com um DataFrame existente
Neste passo a passo, o senhor usará o site bamboolib para exibir em seu Notebook o conteúdo de um arquivo Pandas DataFrame. Este site DataFrame contém uma cópia de um exemplo de conjunto de dados de ventas. Em seguida, o senhor experimenta alguns dos códigos do Notebook relacionados que o site bamboolib gera automaticamente para o senhor. O senhor termina consultando e classificando alguns dos conteúdos do DataFrame.
-
Crie um Python Notebook.
-
Anexe o Notebook a um clustering que atenda aos requisitos.
-
Na primeira célula do Notebook, digite o seguinte código e, em seguida, execute a célula. Ignore esta etapa se bamboolib o site já estiver instalado no workspace ou no clustering.
Python%pip install bamboolib
-
Na segunda célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonimport bamboolib as bam
-
Na terceira célula do Notebook, digite o seguinte código e, em seguida, execute a célula.
Pythonimport pandas as pd
df = pd.read_csv(bam.sales_csv)
dfObserve que o site bamboolib é compatível apenas com Pandas DataFrames. Para converter um PySpark DataFrame em um Pandas DataFrame, chame toPandas no PySpark DataFrame. Para converter um Pandas API em Spark DataFrame em um Pandas DataFrame, chame to_pandas no Pandas API em Spark DataFrame.
-
Clique em Show bamboolib UI .
-
Exiba todas as linhas em que item_type é Comida para bebês:
- Na lista Ações de pesquisa , selecione Filtrar linhas .
- No painel Filtrar linhas , na lista Selecionar (acima de onde ), selecione Selecionar linhas .
- Na lista abaixo de onde , selecione item_type .
- Na lista Escolher ao lado de item_type , selecione tem valor ( es).
- Na caixa Escolher valor (es) ao lado de Tem valor (es) , selecione Comida para bebês .
- Clique em Executar .
-
Copie o código Python gerado automaticamente para essa consulta. Para fazer isso, clique em Copiar código abaixo da visualização dos dados.
-
Cole e modifique o código:
-
Na quarta célula do Notebook, cole o código que o senhor copiou. Deve ter a seguinte aparência:
Python# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])] -
Adicione a esse código para que ele exiba apenas as linhas em que order_prio é C e, em seguida, execute a célula:
Python# Step: Keep rows where item_type is one of: Baby Food
df = df.loc[df['item_type'].isin(['Baby Food'])]
# Add the following code.
# Step: Keep rows where order_prio is one of: C
df = df.loc[df['order_prio'].isin(['C'])]
df
-
Em vez de escrever esse código, você também pode fazer a mesma coisa usando bamboolib na terceira célula para exibir apenas as linhas em que order_prio é C . Esta passo é um exemplo de extensão do código que bamboolib gerou automaticamente anteriormente.
-
Classifique as linhas por região em ordem crescente:
a. No widget dentro da quarta célula, clique em Classificar linhas .
-
No painel Classificar coluna (s) , na lista Escolher coluna , selecione região .
-
Na lista ao lado da região , selecione ascendente (A-Z ).
-
Clique em Executar .
-
Isso equivale a escrever você mesmo o seguinte código:
df = df.sort_values(by=['region'], ascending=[True])
df
Você também poderia ter usado bamboolib na terceira célula para classificar as linhas por região em ordem crescente. Esta passo demonstra como você pode usar bamboolib para estender o código que você escreve. À medida que você usa bamboolib, ele gera automaticamente o código adicional para você em segundo plano, para que você possa estender ainda mais seu código já estendido!
- Continue com key tarefa.
tarefa principal
Nesta secção:
- Adicionar o widget a uma célula
- Limpe o widget
- Tarefa de carregamento de dados
- Ação de dados tarefa
- Data action história tarefa
- Obtenha o código para recriar programaticamente o estado atual do widget como um DataFrame
Adicionar o widget a uma célula
Cenário : O senhor deseja que o widget bamboolib seja exibido em uma célula.
-
Certifique-se de que o Notebook atende aos requisitos do site bamboolib.
-
Se bamboolib o ainda não estiver instalado no workspace ou no clustering, execute o seguinte código em uma célula do Notebook, de preferência na primeira célula:
Python%pip install bamboolib
-
Execute o seguinte código no Notebook, de preferência na primeira ou segunda célula do Notebook:
Pythonimport bamboolib as bam
-
Opção 1 : Na célula em que o widget deve aparecer, adicione o seguinte código e, em seguida, execute a célula:
Pythonbam
O widget aparece na célula abaixo do código.
Ou:
Opção 2 : Em uma célula que contém uma referência a um Pandas DataFrameimprima o endereço DataFrame. Por exemplo, dada a seguinte definição DataFrame, execute a célula:
Pythonimport pandas as pd
from datetime import datetime, date
df = pd.DataFrame({
'a': [ 1, 2, 3 ],
'b': [ 2., 3., 4. ],
'c': [ 'string1', 'string2', 'string3' ],
'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ],
'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ]
})
dfO widget aparece na célula abaixo do código.
Observe que o site bamboolib é compatível apenas com Pandas DataFrames. Para converter um PySpark DataFrame em um Pandas DataFrame, chame toPandas no PySpark DataFrame. Para converter um Pandas API em Spark DataFrame em um Pandas DataFrame, chame to_pandas no Pandas API em Spark DataFrame.
Limpe o widget
Cenário : você deseja limpar o conteúdo de um widget e depois ler novos dados no widget existente.
Opção 1 : executar o seguinte código na célula que contém o widget de destino:
bam
O widget limpa e, em seguida, exibe novamente o Databricks: Read CSV file from DBFS , Databricks: Load database table (Carregar tabela de banco de dados ) e Load dummy data (Carregar dados fictícios ).
Se o erro name 'bam' is not defined
aparecer, execute o seguinte código no Notebook (de preferência na primeira célula do Notebook) e tente novamente:
import bamboolib as bam
Opção 2 : Em uma célula que contém uma referência a um Pandas DataFrameimprima novamente o endereço DataFrame executando a célula novamente. O widget é limpo e, em seguida, exibe os novos dados.
Tarefa de carregamento de dados
Nesta secção:
- Leia um exemplo do conteúdo do site datasetno widget
- Ler o conteúdo de um arquivo CSV no widget
- Leia o conteúdo de uma tabela de banco de dados no widget
Leia um exemplo do conteúdo do site datasetno widget
Cenário : O senhor deseja ler alguns dados de exemplo no widget, por exemplo, alguns dados de ventas simuladas, para que possa testar a funcionalidade do widget.
- Clique em Carregar dados fictícios .
Se Carregar dados fictícios não estiver visível, limpe o widget com a Opção 1 e tente novamente.
-
No painel Load dummy data ( Carregar dados fictícios ), em Load a dummy data set for testing (Carregar um conjunto de dados fictícios para teste) bamboolib, selecione o nome do dataset que o senhor deseja carregar.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
O widget exibe o conteúdo do site dataset.
O senhor pode alternar o widget atual para exibir o conteúdo de um exemplo diferente dataset:
- No widget atual, clique em Load dummy data (Carregar dados fictícios ) tab.
- Siga as passos anteriores para ler o conteúdo do outro datasetde exemplo no widget.
Ler o conteúdo de um arquivo CSV no widget
Cenário : O senhor deseja ler o conteúdo de um arquivo CSV em seu Databricks workspace no widget.
- Clique em Databricks: Read CSV file from DBFS (Ler arquivo CSV do DBFS ).
Se o Databricks: Read CSV file from DBFS não estiver visível, limpe o widget com a Opção 1 e tente novamente.
-
No painel Read CSV from DBFS , navegue até o local que contém o arquivo CSV de destino.
-
Selecione o arquivo CSV de destino.
-
Para Dataframe name (Nome do quadro de dados ), digite um nome para o identificador programático do conteúdo do arquivo CSV como a DataFrameou deixe df como o identificador programático default.
-
Para o separador de valoresCSV , digite o caractere que separa os valores no arquivo CSV ou deixe o caractere , (vírgula) como separador de valores default.
-
Para Decimal separator (Separador decimal ), digite o caractere que separa os decimais no arquivo CSV ou deixe o . (ponto) como separador do valor default.
-
Para Limite de linhas: ler as primeiras N linhas - deixe em branco para não haver limite , digite o número máximo de linhas a serem lidas no widget, ou deixe 100000 como o número default de linhas, ou deixe essa caixa em branco para não especificar nenhum limite de linhas.
-
Clique em Open CSV file (Abrir arquivo CSV ).
O widget exibe o conteúdo do arquivo CSV, com base nas configurações que o senhor especificou.
O senhor pode alternar o widget atual para exibir o conteúdo de um arquivo CSV diferente:
- No widget atual, clique no link Read CSV de DBFS tab.
- Siga as passos anteriores para ler o conteúdo do outro arquivo CSV no widget.
Leia o conteúdo de uma tabela de banco de dados no widget
Cenário : O senhor deseja ler o conteúdo de uma tabela de banco de dados no site Databricks workspace no widget.
- Clique em Databricks: Carregar tabela do banco de dados .
Se o Databricks: Load database table não estiver visível, limpe o widget com a Opção 1 e tente novamente.
-
No painel Databricks: Load database table (Carregar tabela de banco de dados ), em Database - leave empty for default database (Banco de dados - deixe em branco para banco de dados ), digite o nome do banco de dados no qual a tabela de destino está localizada ou deixe essa caixa em branco para especificar o default banco de dados.
-
Em Tabela , insira o nome da tabela de destino.
-
Para Limite de linhas: ler as primeiras N linhas - deixe em branco para não haver limite , digite o número máximo de linhas a serem lidas no widget, ou deixe 100000 como o número default de linhas, ou deixe essa caixa em branco para não especificar nenhum limite de linhas.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
O widget exibe o conteúdo da tabela, com base nas configurações que você especificou.
Você pode alternar o widget atual para exibir o conteúdo de uma tabela diferente:
- No widget atual, clique no link Databricks: Load database table tab.
- Siga as passos anteriores para ler o conteúdo da outra tabela no widget.
Ação de dados tarefa
O bamboolib oferece mais de 50 ações de dados. A seguir, apresentamos algumas das tarefas mais comuns de ação de obtenção de dados.
Nesta secção:
- Selecionar colunas
- Soltar colunas
- Filtrar linhas
- Classificar linhas
- Agrupamento de linhas e colunas tarefa
- Remover linhas com valores ausentes
- Remover linhas duplicadas
- Encontre e substitua valores ausentes
- Crie uma fórmula de coluna
Selecionar colunas
Cenário : você deseja mostrar somente colunas específicas da tabela por nome, tipo de dados ou que correspondam a alguma expressão regular. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar apenas as colunas item_type
e sales_channel
, ou deseja mostrar apenas as colunas que contêm as cadeias _date
em seus nomes.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite select e, em seguida, selecione Selecionar ou eliminar colunas .
- Selecione Selecionar ou eliminar colunas .
-
No painel Selecionar ou eliminar colunas, na lista suspensa Escolher, selecione Selecionar.
-
Selecione os nomes da coluna de destino ou o critério de inclusão.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Soltar colunas
Cenário : você deseja ocultar colunas específicas da tabela por nome, tipo de dados ou que correspondam a alguma expressão regular. Por exemplo, nas ventas fictícias dataset, o senhor deseja ocultar as colunas order_prio
, order_date
e ship_date
, ou deseja ocultar todas as colunas que contêm apenas valores de data e hora.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite drop e selecione Selecionar ou eliminar colunas .
- Selecione Selecionar ou eliminar colunas .
-
No painel Selecionar ou eliminar colunas, na lista suspensa Escolher, selecione Eliminar.
-
Selecione os nomes da coluna de destino ou o critério de inclusão.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Filtrar linhas
Cenário : você deseja mostrar ou ocultar linhas específicas da tabela com base em critérios como valores de coluna específicos que estão coincidentes ou ausentes. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar apenas as linhas em que o valor da coluna item_type
está definido como Baby Food
.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite filtro e selecione Filtrar linhas .
- Selecione Filtrar linhas .
-
No painel Filter rows (Filtrar linhas ), na lista suspensa Choose (Selecionar ) acima de where (onde ), selecione Select rows (Selecionar linhas ) ou Drop rows (Soltar linhas ).
-
Especifique o primeiro critério de filtro.
-
Para adicionar outro critério de filtro, clique em adicionar condição e especifique o próximo critério de filtro. Repita conforme desejado.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Classificar linhas
Cenário : você deseja classificar as linhas da tabela com base nos valores em uma ou mais colunas. Por exemplo, nas ventas fictícias dataset, o senhor deseja mostrar as linhas pelos valores da coluna region
em ordem alfabética de A a Z.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite classificar e selecione Classificar linhas .
- Selecione Classificar linhas .
-
No painel Classificar coluna (s) , escolha a primeira coluna pela qual classificar e a ordem de classificação.
-
Para adicionar outro critério de classificação, clique em adicionar coluna e especifique o próximo critério de classificação. Repita conforme desejado.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Agrupamento de linhas e colunas tarefa
Nesta secção:
- Agrupe linhas e colunas por uma única função agregada
- Agrupe linhas e colunas por várias funções agregadas
Agrupe linhas e colunas por uma única função agregada
Cenário : você deseja mostrar os resultados de linhas e colunas por meio de agrupamentos calculados e deseja atribuir nomes personalizados a esses agrupamentos. Por exemplo, nas ventas fictícias dataset, o senhor deseja agrupar as linhas pelos valores da coluna country
, mostrando os números de linhas que contêm o mesmo valor country
e dando à lista de contagens calculadas o nome country_count
.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite grupo e selecione Agrupar por e agregar (com renomeação ).
- Selecione Agrupar por e agregar (com renomeação ).
-
No painel Agrupar por com renomeação de coluna , selecione as colunas pelas quais agrupar o primeiro cálculo e, opcionalmente, especifique um nome para a coluna calculada.
-
Para adicionar outro cálculo, clique em adicionar cálculo e especifique o próximo cálculo e o nome da coluna. Repita conforme desejado.
-
Especifique onde armazenar o resultado.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Agrupe linhas e colunas por várias funções agregadas
Cenário : você deseja mostrar os resultados de linhas e colunas por meio de agrupamentos calculados. Por exemplo, nas ventas fictícias dataset, o senhor deseja agrupar as linhas pelos valores das colunas region
, country
e sales_channel
, mostrando o número de linhas que contêm o mesmo valor region
e country
por sales_channel
, bem como o total_revenue
por combinação exclusiva de region
, country
e sales_channel
.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite group e, em seguida, selecione Group by e agregue (default ).
- Selecione Group by e agregue (default ).
-
No painel Agrupar por com renomeação de coluna , selecione as colunas pelas quais agrupar e o primeiro cálculo.
-
Para adicionar outro cálculo, clique em adicionar cálculo e especifique o próximo cálculo. Repita conforme desejado.
-
Especifique onde armazenar o resultado.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Remover linhas com valores ausentes
Cenário : você deseja remover qualquer linha que tenha um valor ausente para as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja remover todas as linhas que tenham um valor item_type
ausente.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite eliminar ou remover e, em seguida, selecione Eliminar valores ausentes .
- Selecione Eliminar valores faltantes .
-
No painel Eliminar valores ausentes , selecione as colunas para remover qualquer linha que tenha um valor ausente para essa coluna.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Remover linhas duplicadas
Cenário : você deseja remover qualquer linha que tenha um valor duplicado para as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja remover todas as linhas que sejam duplicatas exatas umas das outras.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite eliminar ou remover e selecione Eliminar/remover duplicatas.
- Selecione Eliminar/remover duplicatas .
-
No painel Remover duplicatas , selecione as colunas para remover qualquer linha que tenha um valor duplicado para essas colunas e, em seguida, selecione se deseja manter a primeira ou a última linha que tenha o valor duplicado.
-
Para Dataframe name , digite um nome para o identificador programático do conteúdo da tabela como a DataFrameou deixe df como o identificador programático default.
-
Clique em Executar .
Encontre e substitua valores ausentes
Cenário : Você deseja substituir o valor ausente por um valor de substituição para qualquer linha com as colunas especificadas. Por exemplo, nas ventas fictícias dataset, o senhor deseja substituir qualquer linha com um valor ausente na coluna item_type
pelo valor Unknown Item Type
.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite localizar ou substituir e selecione Localizar e substituir valores ausentes .
- Selecione Localizar e substituir valores ausentes .
-
No painel Substituir valores faltantes , selecione as colunas para substituir os valores ausentes e, em seguida, especifique o valor de substituição.
-
Clique em Executar .
Crie uma fórmula de coluna
Cenário : você deseja criar uma coluna que usa uma fórmula exclusiva. Por exemplo, nas ventas fictícias dataset, o senhor deseja criar uma coluna chamada profit_per_unit
que exiba o resultado da divisão do valor da coluna total_profit
pelo valor da coluna units_sold
para cada linha.
-
Em Data tab, na lista suspensa Search actions (Ações de pesquisa ), siga um destes procedimentos:
- Digite fórmula e selecione Nova fórmula de coluna .
- Selecione Nova fórmula de coluna .
-
No painel Substituir valores faltantes , selecione as colunas para substituir os valores ausentes e, em seguida, especifique o valor de substituição.
-
Clique em Executar .
Data action história tarefa
Nesta secção:
- visualizar a lista de ações realizadas no widget
- Desfazer a ação mais recente realizada no widget
- Refaça a ação mais recente realizada no widget
- Alterar a ação mais recente realizada no widget
visualizar a lista de ações realizadas no widget
Cenário : você deseja ver uma lista de todas as alterações feitas no widget, começando pela alteração mais recente.
Clique na história . A lista de ações aparece no painel Histórico de transformações .
Desfazer a ação mais recente realizada no widget
Cenário : você deseja reverter a alteração mais recente feita no widget.
Siga um destes procedimentos:
- Clique no ícone de seta no sentido anti-horário.
- Clique em história e no painel História de transformações , clique em Desfazer última passo .
Refaça a ação mais recente realizada no widget
Cenário : você deseja reverter a reversão mais recente que foi feita no widget.
Siga um destes procedimentos:
- Clique no ícone de seta no sentido horário.
- Clique em história e no painel História de transformações , clique em Recuperar última passo .
Alterar a ação mais recente realizada no widget
Cenário : você deseja alterar a alteração mais recente que foi feita no widget.
-
Siga um destes procedimentos:
- Clique no ícone do lápis.
- Clique em história e no painel História de transformações , clique em Editar última passo .
-
Faça a alteração desejada e clique em Executar .
Obtenha o código para recriar programaticamente o estado atual do widget como um DataFrame
Cenário : O senhor deseja obter o código Python que recria programaticamente o estado do widget atual, representado como um Pandas DataFrame. O senhor deseja executar esse código em uma célula diferente desta pasta de trabalho ou em uma pasta de trabalho completamente diferente.
-
Clique em Obter código .
-
No painel Exportar código , clique em Copiar código . O código é copiado para a área de transferência do seu sistema.
-
Cole o código em uma célula diferente nesta pasta de trabalho ou em uma pasta de trabalho diferente.
-
Escreva um código adicional para trabalhar com esse Pandas DataFrame programaticamente e, em seguida, execute a célula. Por exemplo, para exibir o conteúdo do DataFrame, supondo que o DataFrame seja representado programaticamente por
df
:Python# Your pasted code here, followed by...
df
Limitações
Consulte Limitações conhecidas Databricks Notebook para obter mais informações.