Pular para o conteúdo principal

Use Genie Code para o desenvolvimento pipeline

info

Visualização

Este recurso está em Pré-visualização Pública.

Genie Code no modo Agente é o parceiro de engenharia de dados de AI para desenvolvedores no Editor do Lakeflow Pipelines. Ele explora dados, gera e executa código de pipeline para Lakeflow Spark Declarative Pipelines (SDP) e corrige erros a partir de um único prompt.

O que é Genie Code para desenvolvimento pipeline ?

Genie Code no modo Agente é um parceiro autônomo que pode automatizar todo o fluxo de trabalho de engenharia de dados em várias etapas no SDP e no LakeFlow Pipelines Editor.

Use o Agente de engenharia de dados.

Em comparação com o modo de bate-papo Genie Code, o modo Agente possui recursos expandidos: planejamento de soluções, recuperação de atividades relevantes, execução de código, uso de saídas pipeline para melhorar os resultados, correção automática de erros e muito mais.

No modo Agente, Genie Code pode planejar e gerar um pipeline completo de ponta a ponta do zero, ou acelerar o trabalho em um pipeline existente. O agente trabalha com você para aprovar seus planos e confirmar os próximos passos antes de prosseguir. Com sua aprovação, Genie Code pode usar ferramentas para executar tarefas como pesquisar tabelas, editar um arquivo de origem SQL ou Python , executar atualizações pipeline e ler o conjunto de dados pipeline .

O acesso e as ações do Genie Code são regidos pelas permissões do usuário. Ele só pode acessar dados aos quais você tem acesso e executar operações para as quais você possui permissões.

nota

Ao ativar o modo Agente no Genie Code, Genie Code adapta suas funcionalidades com base no recurso que você está usando no Databricks. Por exemplo, no Editor LakeFlow Pipelines , Genie Code se concentra na edição pipeline e em tarefas de engenharia de dados. No Notebook e no Editor SQL , Genie Code oferece suporte à exploração e análise de dados. Consulte Usar código Genie para ciência de dados para obter mais informações.

Requisitos

Para usar Genie Code em engenharia de dados, seu workspace precisa do seguinte:

Use Genie Code para o desenvolvimento pipeline

Para utilizar os recursos de agentes do Genie Code no desenvolvimento pipeline :

  1. No Editor do Lakeflow Pipelines, abra o painel lateral do Genie Code clicando em Ícone do código do gênio brilhante. Genie Code no canto superior direito do seu workspace.

  2. No canto inferior direito, selecione Agente . Ativa-se o modo Agente do Genie Code, possibilitando a utilização de suas capacidades de engenharia de dados agêntica.

  3. Digite o código Genie solicitado. Por exemplo, você pode fazer perguntas sobre seu pipeline, como "descreva este pipeline". Você também pode solicitar a adição de um novo conjunto de dados, por exemplo, "crie silver_sales_data em um novo arquivo que leia os dados de bronze_sales_data, limpe os dados e adicione expectativas de qualidade úteis".

nota

Genie Code respeita as permissões Unity Catalog do usuário, portanto, só pode acessar os dados e o código-fonte pipeline aos quais você tem acesso.

  1. À medida que o Genie Code gera sua resposta, ele frequentemente faz uma pausa para obter sua entrada:

    • Para tarefas mais complexas, Genie Code pode criar um plano passo a passo e fazer perguntas para esclarecimento. Responda às suas perguntas esclarecedoras para ajudá-lo a aprimorar seu plano.

    • Quando o Genie Code precisar executar código ou atualizar um pipeline, ele solicita a sua aprovação antes de prosseguir. Permitir ou Recusar a solicitação. Você também pode selecionar Permitir neste tópico (referindo-se ao tópico de conversa do Genie Code) ou Sempre permitir .

importante

O Genie Code no modo Agente pode gerar e executar código em seu pipeline. Embora possua guarda-corpos para evitar ações perigosas, ainda existe risco. Você só deve usá-lo com dados confiáveis e deve revisar o código antes de executá-lo.

  • À medida que o Genie Code continua a processar o código, você poderá ser solicitado a selecionar Continuar ou Rejeitar. Analise o trabalho existente e selecione Continuar para permitir que ele prossiga para os próximos passos ou Rejeitar para que ele tente algo diferente.

  • Para interromper o Genie Code enquanto ele estiver em execução, clique no botão vermelho.Ícone de parar..

Genie Code pode criar novos arquivos, gerar texto, consultas e código, executar os arquivos ou o pipeline e acessar o conjunto de dados de saída para interpretar os resultados.

nota

Para que Genie Code continue funcionando e execute as próximas etapas, você precisa permanecer na tab atual em que ele está sendo executado.

dica

É possível adicionar instruções para o Genie Code utilizar na maioria das respostas. Por exemplo, se você tiver convenções de código que deseja usar, ou bibliotecas preferenciais para usar, você pode adicionar essas diretrizes às instruções para o Genie Code. Você também pode criar habilidades para estender o Genie Code com recursos especializados para suas tarefas específicas de domínio. Para obter mais detalhes e outras dicas, consulte Dicas para melhorar as respostas do Genie Code.

Capacidades do Modo Agente

No modo Agente, Genie Code pode ajudar na maioria das tarefas de desenvolvimento pipeline . As principais capacidades incluem:

  • Descoberta de dados : Genie Code pode pesquisar tabelas no workspace para ajudar você a encontrar os dados necessários para uma tarefa.
  • Edição de código em pipeline : O Genie Code pode criar e editar vários arquivos simultaneamente. Ele mantém você informado sobre quais arquivos estão sendo alterados e mostra a diferença de código em cada arquivo, para que você possa revisar as alterações individualmente ou todas juntas ao final.
  • execução do pipeline : Genie Code pode executar arquivos individuais, executar a seco/execução do pipeline ou fazer uma refresh completa. Quando o Genie Code quiser prosseguir, ele solicitará sua confirmação antes de fazê-lo.
  • Entendendo e aprimorando o comportamento pipeline : Genie Code pode inspecionar conjuntos de dados e saídas pipeline para ajudar você a entender o que um pipeline está fazendo de ponta a ponta e por quê. Por exemplo, pode resumir transformações, rastrear como os dados fluem para as tabelas subsequentes e destacar alterações inesperadas na contagem de linhas ou nos esquemas. Ao identificar possíveis problemas de qualidade de dados, Genie Code pode ajudar você a entender a causa e sugerir onde e como resolvê-los no pipeline.

Essas funcionalidades dão suporte a casos de uso comuns, como:

  • Criação de um novo pipeline : Genie Code pode ajudar em todas as etapas de criação de um novo pipeline com arquitetura Medallion, desde a ingestão de dados, passando pela padronização e limpeza dos dados, até a transformação e análise dos mesmos.
  • Explicar um pipeline : A Genie Code pode analisar e explicar um pipeline existente para ajudar você a implementá-lo rapidamente.
  • Correção de problemas : Quando você tiver erros, o Genie Code pode ajudar a diagnosticar e corrigir os problemas, percorrendo vários arquivos até que o problema seja resolvido.

Migrar de outros frameworks ETL para Pipelines Declarativos do Lakeflow Spark

info

Beta

Este recurso está em Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Pré-visualizações . Consulte Gerenciar prévias do Databricks.

O Genie Code pode migrar um projeto de transformações de dados existente para um pipeline LakeFlow Spark Declarative Pipelines (SDP). Você o aponta para seu projeto upload, e ele planeja e faz a execução da migração de ponta a ponta. Essa capacidade de migração faz parte do Lakebridge e também está disponível por meio do transpilador Switch do Lakebridge.

nota

A migração atualmente é compatível apenas com projetos dbt e Informatica. O suporte para fontes adicionais está planejado.

Migrar um Projeto

  1. Faça upload do projeto para o Databricks. Use uma das seguintes opções:

    • Catálogo : abra um Volume, então Fazer upload para este Volume .
    • Workspace : abra um diretório e, em seguida, clique em Ícone do menu Kebab. > Importar .
  2. Criar um pipeline SDP vazio. Vá para Jobs & Pipelines e crie um pipeline ETL .

  3. Peça ao Genie Code para migrá-lo. Abra o Genie Code e use o prompt com o caminho para o projeto upload, por exemplo:

prompt

Migre o projeto em /Volumes/my_catalog/my_schema/my_volume/my_project

Como a migração funciona

Depois de começar a migração, o Genie Code gera um plano e, em seguida, o executa:

  1. Leia a fonte. Ele lê o projeto de origem para entender seus modelos, transformações e dependências.
  2. Coletar entradas. Ele pausa para solicitar quaisquer entradas necessárias, como se deve gerar a fonte do pipeline SQL ou Python.
  3. Pesquisar e gerar uma representação intermediária (IR). Ele analisa o projeto e constrói uma representação intermediária que captura a lógica do pipeline independente da ferramenta de origem.
  4. Converter, validar e reparar. Ele converte a IR em fonte SDP, valida o resultado e itera em um loop de reparo até que o pipeline esteja correto.
nota

Revise a fonte do pipeline migrado e realize a execução do pipeline para confirmar se os resultados correspondem ao projeto original antes de depender dele em produção.

Exemplos

Experimente as seguintes sugestões para começar:

  • "Construir e executar um pipeline de arquitetura Medallion para detecção de fraudes usando as tabelas de transações e clientes em my_catalog.my_schema."
  • "Explique cada passo deste pipeline."
  • "Corrija a falha neste pipeline."

Recursos adicionais