Pular para o conteúdo principal

operadores integrados no LakeFlow Designer

info

Visualização

Este recurso está em Pré-visualização Pública.

LakeFlow Designer inclui operadores integrados para tarefas comuns de preparação de dados e transformações. Abra o menu de operadores no painel lateral à esquerda para navegar pelos operadores por categoria ou use a opção "Pesquisar um operador..." na parte superior do painel. Para abrir o painel de configuração de um operador depois de adicioná-lo à tela, clique duas vezes nele ou mantenha o ponteiro sobre ele e clique.Ícone de lápis. ( Operador de edição ).

Fonte e saída

Fonte

Importa dados para o Designer. O operador Source lê de uma tabela Unity Catalog ou de outras fontes compatíveis. Possui duas etapas:

  1. Selecionando uma tabela ou arquivo : Pesquise uma tabela ou arquivo pelo nome ou navegue por catálogo e esquema. Você também pode criar uma nova tabela a partir deste painel.
  2. Resumo da tabela : Após selecionar uma tabela, o painel de configuração exibe o nome da tabela, o proprietário e a data da última atualização. Clique em Selecionar uma nova fonte de dados para alterar a fonte. Alterar a origem invalida o cache de saída para todos os operadores subsequentes.

Para obter a gama completa de opções de ingestão de dados, consulte Ingerir dados no LakeFlow Designer.

Saída

Exporta dados do Designer, gravando os resultados em uma tabela no Unity Catalog.

No painel de configuração de saída, especifique:

  • Nome da tabela : O nome da tabela a ser criada.
  • Local de saída : O catálogo e o esquema onde a tabela é criada.

Clique em execução para executar a preparação de dados visuais e gravar os resultados.

FunçãoAI

execução de operações integradas AI em seus dados. No painel de configuração, abra Selecionar uma função e escolha uma das funções abaixo. Cada função expõe opções no painel para entradas (por exemplo, colunas, prompts, rótulo ou idiomas) e saídas.

Função

Descrição

ai_analyze_sentiment

Realiza análise de sentimento no texto de entrada.

ai_classify

Classifica textos ou documentos analisados usando o rótulo fornecido.

ai_extract

Extrai dados estruturados de textos ou documentos analisados usando campos definidos por você.

ai_fix_grammar

Corrige erros gramaticais no texto.

ai_gen

Responde a uma pergunta fornecida pelo usuário com base na entrada de dados.

ai_mask

Mascara entidades específicas no texto (por exemplo, para desidentificação).

ai_similarity

Compara duas strings e retorna uma pontuação de similaridade semântica.

ai_summarize

Gera um resumo do texto.

ai_translate

Traduz o texto para um idioma de destino especificado.

transformações

Os seguintes operadores realizam transformações nos seus dados.

Agregar

Resume as linhas agrupando os dados e calculando os valores agregados.

  • Agregar por : Selecione uma coluna, escolha uma função de agregação e forneça um nome para a coluna de saída. Clique em + Adicionar agregação para adicionar mais.
  • Agrupar por : Selecione as colunas pelas quais deseja agrupar. Clique em + Adicionar agrupamento para adicionar mais grupos.

Funções de agregação suportadas: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.

nota

As colunas utilizadas em Agrupar por são incluídas automaticamente na saída.

Combinar

Combinar dados de duas tabelas com esquemas correspondentes em uma única saída.

  • Defina as operações : Escolha União , Interseção ou Exceção .
  • Estratégia de mesclagem : Escolha "Distintas" para excluir linhas duplicadas da saída ou "Todas" para manter todas as linhas, incluindo as duplicadas.

Filtro

Seleciona as linhas correspondentes, mantendo apenas as linhas que atendem a uma ou mais condições, utilizando um construtor gráfico de condições. Para cada condição, selecione uma coluna , um tipo de condição e um valor para correspondência condicional.

Tipos de condições suportadas:

  • É igual a / Não é igual a
  • É um dos / Não é um dos
  • Contém / Não contém
  • começa com / não começa com
  • Termina com / Não termina com
  • Maior que / Menor que
  • É nulo / Não é nulo

join

Vincula duas tabelas por meio de uma key , combinando dois conjuntos de dados de entrada com base em valores de coluna correspondentes.

Para configurar uma entrada:

  1. Selecione as duas tabelas de entrada para join.
  2. Especifique pelo menos uma condição join selecionando colunas correspondentes das duas tabelas. Clique em + Adicionar expressão join para adicionar mais condições.
  3. Selecione o tipo join : joincompleta , joininterna , joinà esquerda ou joinà direita .
  4. Opcional: Escolha quais colunas incluir na saída. Por default, todas as colunas de ambas as tabelas são incluídas. Nomes de colunas duplicados recebem um prefixo de nome de tabela.
  5. Opcional: Adicione colunas de expressão personalizadas com base no resultado da junção.

Limite

Restringe a contagem de linhas, permitindo a passagem apenas até o número máximo de linhas especificado.

Pivô

Redimensiona dados tabulares em duas direções. Utilize a aba na parte superior do painel de configuração para escolher o modo:

  • Linhas → Colunas (pivot): Transforma valores distintos em uma coluna em novos cabeçalhos de coluna e preenche essas colunas com valores agregados de outra coluna.
  • Colunas → Linhas (despivotar): Agrupa uma ou mais colunas em linhas; define nomes para as colunas key e valor de saída.

No modo Linhas → Colunas :

  • Coluna pivô : Selecione a coluna cujos valores distintos se tornarão os novos cabeçalhos.
  • Valor e agregação : Escolha a coluna cujos valores preenchem as células da tabela dinâmica e selecione uma função de agregação (por exemplo, SOMA, MÉDIA, CONTAR, MÍNIMO ou MÁXIMO). Configure como os valores ausentes serão tratados (por exemplo, nulo ou zero), se disponível no painel.

No modo Colunas → Linhas , selecione as colunas que deseja desagrupar e configure os nomes das colunas key e valor de saída.

Incluir colunas : Use a tabela para escolher quais colunas permanecerão na saída, juntamente com os valores pivotados ou não pivotados (e para remover colunas desnecessárias antes das transformações). O Designer infere colunas fixas (de agrupamento) a partir das colunas que você não atribui às funções de tabela dinâmica, valor ou desagrupamento.

Organizar

Ordena as linhas em uma ou mais colunas. Para cada coluna, escolha ASC (crescente) ou DESC (decrescente). Clique em + Adicionar expressão de classificação para classificar por colunas adicionais. A ordenação segue a ordem lexical padrão.

SQL

Escreve código SQL personalizado para quaisquer transformações não abrangidas pelos outros operadores.

Digite uma instrução SQL SELECT no editor. Para referenciar a saída de um operador de entrada, use o nome desse operador como nome da tabela em sua consulta. Por exemplo:

SQL
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Clique no Ícone de código. Clique no botão no editor para abrir o painel completo do código SQL e ver como sua instrução se encaixa no fluxo de trabalho completo.

Transformar

Seleciona, cria ou transforma colunas a partir dos dados de entrada.

No painel de configuração Transformar:

  • Incluir ou excluir colunas : Use as caixas de seleção para escolher quais colunas serão incluídas na saída. Clique na caixa de seleção do cabeçalho para selecionar todas as colunas ou desmarque a seleção.
  • Renomear uma coluna : Digite um novo nome no campo Renomear ao lado de qualquer coluna.
  • Reordenar colunas : Arraste a alça no lado esquerdo de uma linha para alterar a ordem das colunas.
  • Adicionar uma coluna personalizada : Clique em + Adicionar uma coluna personalizada para abrir o editor de expressões. Veja abaixo.

Colunas personalizadas

O editor de expressões permite definir novas colunas usando linguagem natural ou código. O editor possui duas caixas de entrada e é bidirecional:

  • Descrição : Digite uma descrição em linguagem natural do que você deseja que a coluna faça. O designer usa o Genie para gerar a expressão de código correspondente abaixo.
  • Expressão : Se preferir escrever ou editar o código diretamente, clique no botão "Editar expressão". A edição da expressão gera automaticamente uma descrição em linguagem natural.

Para remover uma coluna personalizada, posicione o cursor sobre a linha correspondente e clique.Ícone de traço..

Python

execução Python personalizado (PySpark) nos dados de entrada. Seu código recebe o conjunto de dados upstream como DataFrames Spark e deve atribuir um único DataFrame a result , que se torna a saída deste operador. Utilize o painel de configuração para conectar as entradas e revisar todas as opções que o editor oferece.

inputs["data"] é uma lista de DataFrames de entrada, na ordem em que foram inseridos. O painel de detalhes do operador mostra os nomes de cada entrada, em ordem. Por exemplo, Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).

Um padrão mínimo é usar a primeira entrada quando presente, ou um DataFrame vazio caso contrário:

Python
# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

A partir daí, você pode encadear operações DataFrame (por exemplo, select, filter, withColumn ou join) em result antes que a atribuição termine, ou substituir result por um novo DataFrame construído a partir de inputs["data"].

Organização

Observação

Adiciona uma nota na tela para que você possa documentar o próprio fluxo de trabalho: seu propósito, pressupostos, ressalvas ou contexto de transferência para qualquer pessoa que abra a preparação de dados visuais posteriormente. O conteúdo das notas é compatível com Markdown, permitindo o uso de títulos, listas, links e ênfase onde o texto simples não é suficiente. As notas não afetam o fluxo de dados entre os operadores.

Grupo

Agrupa visualmente os operadores na tela sem alterar o fluxo de dados entre eles — útil quando uma preparação de dados visual fica muito grande ou quando se deseja refletir estágios lógicos.

Para formar um grupo:

  • Arrastar operadores para um grupo : Arraste um ou mais operadores para um grupo para adicioná-los a ele.
  • Criar um grupo a partir de uma seleção : Selecione um ou mais operadores, abra o menu de contexto (clique com o botão direito do mouse) e escolha Criar novo grupo para agrupar a seleção em um novo grupo.

Depois de agrupar os operadores, você pode dar ao grupo um nome descritivo e minimizá- lo ou expandi- lo para mostrar ou ocultar seu conteúdo na tela.

Próximos passos