Pular para o conteúdo principal

dropna

Retorna um novo DataFrame omitindo linhas com valores nulos ou NaN. DataFrame.dropna e DataFrameNaFunctions.drop são sinônimos um do outro.

Sintaxe

dropna(how: str = "any", thresh: Optional[int] = None, subset: Optional[Union[str, Tuple[str, ...], List[str]]] = None)

Parâmetros

Parâmetro

Tipo

Descrição

how

str, opcional, default 'qualquer'

Os valores podem ser 'qualquer um' ou 'todos'. Se 'qualquer', remova uma linha caso ela contenha algum valor nulo. Se 'all' for selecionado, remova uma linha somente se todos os seus valores forem nulos.

thresh

int, opcional, default None

Se especificado, remova as linhas que têm menos de thresh valores não nulos. Isso sobrescreve o parâmetro how .

subset

string, tupla ou lista, opcional

Lista opcional de nomes de colunas a serem considerados.

Devoluções

DataFrameDataFrame com apenas as linhas nulas excluídas.

Exemplos

Python
from pyspark.sql import Row
df = spark.createDataFrame([
Row(age=10, height=80.0, name="Alice"),
Row(age=5, height=float("nan"), name="Bob"),
Row(age=None, height=None, name="Tom"),
Row(age=None, height=float("nan"), name=None),
])

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# +---+------+-----+

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# |NULL| NULL| Tom|
# +----+------+-----+

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10| 80.0|Alice|
# | 5| NaN| Bob|
# +---+------+-----+