Pular para o conteúdo principal

soltar (DataFrameNaFunctions)

Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são sinônimos um do outro.

Sintaxe

drop(how='any', thresh=None, subset=None)

Parâmetros

Parâmetro

Tipo

Descrição

how

str, opcional

Indica se uma linha deve ser descartada caso contenha algum valor nulo ou somente se todos os seus valores forem nulos. Os valores aceitos são 'any' (default) e 'all'. Se thresh for especificado, how será ignorado.

thresh

int, opcional

Se especificado, remova as linhas que têm menos de thresh valores não nulos. Sobrescreve how.

subset

string, tupla ou lista, opcional

Nomes de colunas a serem considerados ao verificar valores nulos ou NaN.

Devoluções

DataFrame

Exemplos

Python
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])

Remova a linha se ela contiver algum valor nulo ou NaN.

Python
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+

Remova a linha somente se todos os seus valores forem nulos ou NaN.

Python
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+

Elimine as linhas que têm menos de thresh valores não nulos e não NaN.

Python
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+

Remover linhas com valores nulos e NaN nas colunas especificadas.

Python
df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+