soltar (DataFrameNaFunctions)
Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são sinônimos um do outro.
Sintaxe
drop(how='any', thresh=None, subset=None)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
| str, opcional | Indica se uma linha deve ser descartada caso contenha algum valor nulo ou somente se todos os seus valores forem nulos. Os valores aceitos são |
| int, opcional | Se especificado, remova as linhas que têm menos de |
| string, tupla ou lista, opcional | Nomes de colunas a serem considerados ao verificar valores nulos ou NaN. |
Devoluções
DataFrame
Exemplos
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
Remova a linha se ela contiver algum valor nulo ou NaN.
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
Remova a linha somente se todos os seus valores forem nulos ou NaN.
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
Elimine as linhas que têm menos de thresh valores não nulos e não NaN.
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+
Remover linhas com valores nulos e NaN nas colunas especificadas.
df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+