Pular para o conteúdo principal

O que é LakeFlow Designer?

info

Visualização

Este recurso está em Pré-visualização Pública.

Lakeflow Designer fornece uma tela visual para o analista realizar análise de dados, preparação e automação básica. No Designer, você cria arquivos visuais de preparação de dados, cada um composto por uma sequência de operadores (como filtrar, join e transformar) organizados como um DAG (grafo acíclico direcionado) para produzir um resultado. Todas as transformações são respaldadas por código, o que permite versionar arquivos no Git e programá-los como Jobs para migrá-los perfeitamente para produção.

Com o LakeFlow Designer, você pode:

  • Projete o fluxo de trabalho usando uma tela de arrastar e soltar.
  • Transformação de dados sem escrever código usando operadores integrados para filtrar, agregar, unir e remodelar dados.
  • Use o Genie Code para gerar ou refinar transformações na preparação visual dos seus dados usando linguagem natural.
  • Visualize cada etapa intermediária sem executar todo o pipeline.

LFD mostrando o recurso de uma preparação de dados visuais.

Na imagem acima, você pode ver:

  1. A tela de arrastar e soltar
  2. Dois operadores
  3. Uma conexão entre duas operadoras
  4. O painel de saída
  5. O perfil de dados da saída
  6. O prompt Genie Code

conceitos-chave

A tela

A tela é o workspace principal onde você adiciona, configura e conecta operadores para construir sua preparação visual de dados.

Para navegar na tela:

  • Deslizar : Mantenha a barra de espaço pressionada enquanto clica e arrasta, ou deslize dois dedos no trackpad.
  • Zoom : Use o gesto de pinça ou estique o dedo no trackpad, ou mantenha pressionada a tecla Ctrl e role a tela.

A barra de ferramentas da tela está localizada no cabeçalho, juntamente com as ferramentas de navegação da tela: Ícone de zoom. Aumente o zoom, Ícone de zoom out. diminuir o zoom, Ícone Fullscreen . view ajustada, Ícone horizontal de DAG. autodisposição e Arraste o ícone. Modo de arrastar.

Clique com o botão direito em qualquer lugar da tela para acessar ações comuns, incluindo adicionar operadores, desfazer e refazer, disposição automática, ajustar view e abrir o painel de código.

Você também pode arrastar e soltar um arquivo Excel ou CSV diretamente na tela para criar um operador de origem para esse arquivo.

Operadores

Operadores são os blocos de construção de uma preparação de dados visuais. Um operador é uma ação como um join, transformação ou filtro. Você encadeia operadores na tela para construir um fluxo de trabalho. Cada operador é configurável com base em seu tipo. Operadores exibem uma descrição gerada por IA do seu efeito; editar a descrição reconfigura o operador.

Tela LFD mostrando os operadores no DAG.

LakeFlow Designer inclui operadores integrados para tarefas comuns de transformação de dados. Para mais detalhes, consulte os operadores integrados no LakeFlow Designer.

Conexões

As conexões definem como os dados fluem entre os operadores. Para criar uma conexão, arraste o pequeno círculo na borda direita de um operador até o pequeno círculo na borda esquerda de outro operador. Isso especifica que os dados fluem do primeiro operador para o segundo. Os dados fluem da esquerda para a direita durante a preparação visual dos dados. Alguns operadores, como join e Combine , aceitam múltiplas conexões de entrada.

Tela LFD mostrando a conexão entre dois operadores.

O painel de saída

O painel de saída é exibido na parte inferior da tela ao selecionar um operador. Selecione qualquer operador para ver os resultados na janela de saída na parte inferior da tela. Para a maioria dos tipos de operador, os dados de entrada estão à esquerda e os dados de saída estão à direita. Operadores que produzem resultados não tabulares, como gráficos, HTML ou imagens, renderizam essas saídas diretamente no painel de saída.

Use o controle de view no painel de saída para alternar entre entrada e saída (o default), somente entrada ou somente saída. Na visualização combinada, arraste o divisor para redimensionar os painéis de entrada e saída.

Por default, os operadores processam uma amostra limitada de dados. Use a dropdown suspensa "Linhas digitalizadas" no painel de saída para controlar quantas linhas processar:

  • Linhas verificadas: Limite : Processa as primeiras N linhas de entrada. Especifique o número de linhas no campo ao lado da dropdown.
  • Linhas verificadas: Máx .: Processa todas as linhas de entrada.

Painel de saída LFD abaixo da tela.

atenção

Executando com linhas analisadas: o Max executa novamente todos os operadores anteriores com o dataset completo e ilimitado, o que pode levar muito tempo.

No painel de saída, você pode optar por exibir detalhes dos dados em sua saída. No canto superior direito do painel de saída, escolha o Ícone da barra lateral. Botão na barra lateral para abrir os detalhes da seleção. Selecione um subconjunto dos seus dados para ver detalhes sobre a sua seleção.

Barra lateral exibindo gráficos e detalhes sobre os dados de saída selecionados.

CódigoGenie

O Genie Code permite que você descreva transformações em linguagem natural. Todas as interações são orientadas e usam o contexto da plataforma Databricks. See Genie Code.

Solicitação Genie Code

Digite um prompt para gerar ou modificar transformações. Para visualizar a história das interações do Genie Code e ver mais detalhes sobre cada resposta, abra o painel lateral do Genie Code clicando em Ícone de cor brilhante. na barra lateral direita. Quando o painel lateral está aberto, a barra de ferramentas no canvas é minimizada. Genie Code exibe um resumo de uma linha de sua edição mais recente acima da caixa de entrada.

Parâmetros

Parâmetros são valores nomeados definidos para a preparação visual de dados como um todo que você pode referenciar a partir de operadores SQL e Python. Para gerenciar parâmetros, abra a tab Parâmetros no painel esquerdo, ao lado da tab Operadores .

Cada parâmetro possui um valor que é estabelecido em sua definição. Quando você programar a preparação de dados visuais para executar, você pode opcionalmente substituir esses valores para cada agendamento. Por exemplo, poderá programar a mesma preparação visual de dados para execução todos os dias ao meio-dia com um parâmetro environment definido como test, e novamente às 14h com environment definido como production.

Referencie um parâmetro de um operador como segue:

Ao abrir um operador SQL ou Python para edição, o Designer exibe um exemplo de como fazer referência aos parâmetros disponíveis acima do editor de origem.

Próximos passos