dropna
Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são sinônimos um do outro.
Sintaxe
dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)
Parâmetros
Parâmetro | Tipo | Descrição |
|---|---|---|
| str, opcional, default 'qualquer' | Os valores podem ser 'qualquer um' ou 'todos'. Se 'qualquer', remova uma linha caso ela contenha algum valor nulo. Se 'all' for selecionado, remova uma linha somente se todos os seus valores forem nulos. |
| int, opcional, default None | Se especificado, remova as linhas que têm menos de |
| string, tupla ou lista, opcional | Lista opcional de nomes de colunas a serem considerados. |
Devoluções
DataFrameDataFrame com apenas as linhas nulas excluídas.
Exemplos
Python
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])
df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+
df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+
df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+