Pular para o conteúdo principal

substituir (DataFrameNaFunctions)

Retorna um novo DataFrame substituindo um valor por outro. DataFrame.replace e DataFrameNaFunctions.replace são sinônimos um do outro. Os valores para to_replace e value devem ter o mesmo tipo e só podem ser numéricos, booleanos ou strings. value pode ser None. Ao substituir, o novo valor é convertido para o tipo da coluna existente.

Sintaxe

replace(to_replace, value=None, subset=None)

Parâmetros

Parâmetro

Tipo

Descrição

to_replace

bool, int, float, str, list ou dict

O valor a ser substituído. Se for um dicionário, então value é ignorado e to_replace deve ser um mapeamento de um valor para sua substituição.

value

bool, int, float, str ou None, opcional

O valor de substituição. Se for uma lista, deve ter o mesmo comprimento e tipo que to_replace. Se um escalar e to_replace é uma sequência, o escalar é usado como substituto para cada item.

subset

lista, opcional

Nomes de colunas a serem considerados. As colunas em subset que não possuem um tipo de dados correspondente são ignoradas.

Devoluções

DataFrame

Notas

Para substituições numéricas, todos os valores a serem substituídos devem ter representações de ponto flutuante únicas. Em caso de conflitos (por exemplo, {42: -1, 42.0: 1}), uma substituição arbitrária é usada.

Exemplos

Python
df = spark.createDataFrame([
(10, 80, "Alice"),
(5, None, "Bob"),
(None, 10, "Tom"),
(None, None, None)],
schema=["age", "height", "name"])

Substitua 10 por 20 em todas as colunas.

Python
df.na.replace(10, 20).show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 20| 80|Alice|
# | 5| NULL| Bob|
# |NULL| 20| Tom|
# |NULL| NULL| NULL|
# +----+------+-----+

Substitua 'Alice' por nulo em todas as colunas.

Python
df.na.replace('Alice', None).show()
# +----+------+----+
# | age|height|name|
# +----+------+----+
# | 10| 80|NULL|
# | 5| NULL| Bob|
# |NULL| 10| Tom|
# |NULL| NULL|NULL|
# +----+------+----+

Substitua 'Alice' por 'A' e 'Bob' por 'B' na coluna name .

Python
df.na.replace(['Alice', 'Bob'], ['A', 'B'], 'name').show()
# +----+------+----+
# | age|height|name|
# +----+------+----+
# | 10| 80| A|
# | 5| NULL| B|
# |NULL| 10| Tom|
# |NULL| NULL|NULL|
# +----+------+----+

Substitua 10 por 18 na coluna age .

Python
df.na.replace(10, 18, 'age').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 18| 80|Alice|
# | 5| NULL| Bob|
# |NULL| 10| Tom|
# |NULL| NULL| NULL|
# +----+------+-----+