Pular para o conteúdo principal

Classe de coluna

Uma coluna em um DataFrame.

Compatível com Spark Connect

Sintaxe

Consulte Criar instâncias de coluna.

Métodos

Método

Descrição

alias(*alias, **kwargs)

Retorna esta coluna com um novo nome ou nomes atribuídos por um alias (no caso de expressões que retornam mais de uma coluna, como explode).

asc()

Retorna uma expressão de classificação baseada na ordem crescente da coluna.

asc_nulls_first()

Retorna uma expressão de classificação baseada na ordem crescente da coluna, sendo que valores nulos são retornados antes de valores não nulos.

asc_nulls_last()

Retorna uma expressão de classificação baseada na ordem crescente da coluna, e os valores nulos aparecem após os valores não nulos.

astype(dataType)

Pseudônimo para cast().

between(lowerBound, upperBound)

Verifique se os valores da coluna atual estão entre os limites inferior e superior especificados, inclusive.

bitwiseAND(other)

Calcule a operação AND bit a bit desta expressão com outra expressão.

bitwiseOR(other)

Calcule a operação OR bit a bit desta expressão com outra expressão.

bitwiseXOR(other)

Calcule o XOR bit a bit desta expressão com outra expressão.

cast(dataType)

Converte a coluna para o tipo dataType.

contains(other)

Contém o outro elemento.

desc()

Retorna uma expressão de classificação baseada na ordem decrescente da coluna.

desc_nulls_first()

Retorna uma expressão de classificação baseada na ordem decrescente da coluna, em que os valores nulos aparecem antes dos valores não nulos.

desc_nulls_last()

Retorna uma expressão de classificação baseada na ordem decrescente da coluna, e os valores nulos aparecem após os valores não nulos.

dropFields(*fieldNames)

Uma expressão que remove campos em StructType pelo nome.

endswith(other)

strings terminam com.

eqNullSafe(other)

Teste de igualdade que é seguro para valores nulos.

getField(name)

Uma expressão que obtém um campo pelo nome em um StructType.

getItem(key)

Uma expressão que obtém um item em uma posição ordinal de uma lista, ou obtém um item por key de um dicionário.

ilike(other)

Expressão SQL ILIKE (LIKE que não diferencia maiúsculas de minúsculas).

isNaN()

Verdadeiro se a expressão atual for NaN.

isNotNull()

Verdadeiro se a expressão atual NÃO for nula.

isNull()

Verdadeiro se a expressão atual for nula.

isin(*cols)

Uma expressão booleana que é avaliada como verdadeira se o valor dessa expressão estiver contido nos valores avaliados dos argumentos.

like(other)

Expressão semelhante a SQL.

name(*alias, **kwargs)

Pseudônimo para alias().

otherwise(value)

Avalia uma lista de condições e retorna uma entre várias expressões de resultado possíveis.

over(window)

Defina uma coluna de janelamento.

rlike(other)

Expressão SQL RLIKE (LIKE com Regex).

startswith(other)

As strings começam com.

substr(startPos, length)

Retorna uma coluna que é uma substring da coluna.

try_cast(dataType)

Esta é uma versão especial de cast que realiza as mesmas operações, mas retorna um valor NULL em vez de gerar um erro se o método de invocação lançar uma exceção.

when(condition, value)

Avalia uma lista de condições e retorna uma entre várias expressões de resultado possíveis.

withField(fieldName, col)

Uma expressão que adiciona/substitui um campo em StructType pelo nome.

Operadores

A classe Column suporta operadores padrão do Python para operações aritméticas, de comparação e lógicas:

  • Aritmética : +, -, *, /, %, **
  • Comparação : ==, !=, <, <=, >, >=
  • Lógico : & (E), | (OU), ~ (NÃO)

Exemplos

Para exemplos mais simples que demonstram o uso de colunas, consulte Operações de coluna.

Criar instâncias de coluna

Selecionar uma coluna de um DataFrame:

Python
df = spark.createDataFrame(
[(2, "Alice"), (5, "Bob")], ["age", "name"])

# Access by attribute
df.name
# Column<'name'>

# Access by bracket notation
df["name"]
# Column<'name'>

Criar uma coluna a partir de uma expressão:

Python
df.age + 1
# Column<...>

1 / df.age
# Column<...>

Operações básicas de coluna

Python
# Arithmetic operations
df.select(df.age + 10).show()

# Comparison operations
df.filter(df.age > 3).show()

# String operations
df.filter(df.name.startswith("A")).show()

# Null checking
df.filter(df.name.isNotNull()).show()

Lógica condicional

Python
from pyspark.sql import functions as F

df.select(
F.when(df.age < 3, "child")
.when(df.age < 13, "kid")
.otherwise("adult")
.alias("age_group")
).show()

Classificação

Python
df.orderBy(df.age.desc()).show()
df.orderBy(df.age.asc_nulls_last()).show()