Pular para o conteúdo principal

guia: Fluxo de trabalho de desenvolvimento de agentes

Este guia fornece um ponto de partida para entender todo o ciclo de vida da criação de um aplicativo AI ou agente AI . Ao longo deste guia, "agente AI " é um termo genérico para sistemas baseados em GenAI, incluindo chamadas LLM simples, funções AI e implementações baseadas em agentes.

Visão geral do ciclo de vida do desenvolvimento

  1. Compreender o caso de uso, o escopo e as métricas de sucesso.
  2. Construa um agente AI inicial.
  3. Aprimorar a qualidade do agente de AI
  4. Alinhar com as partes interessadas antes da produção
  5. Liberar para produção e monitorar continuamente a qualidade.

1. Compreender o caso de uso, o escopo e as métricas de sucesso.

Antes de construir qualquer coisa, esclareça qual é a função do agente AI . Alinhar-se com as partes interessadas, incluindo as pessoas que aprovarão a implantação em produção.

  • Que tipos de entradas o agente irá processar (o "domínio" ou "escopo")? Quais usuários enviarão as informações?
  • Como o agente deveria responder idealmente a entradas comuns? Que informações ou contexto devem ser usados?
  • Quais critérios definem uma resposta boa ou ruim: tom, precisão, completude, extensão da resposta, segurança, citações ou outros requisitos?
  • Quais são os requisitos e restrições do sistema em produção: custo, latência e escalabilidade?
  • Quais são os possíveis modos de falha e como o agente deve lidar com eles: entradas incorretas do usuário, informações insuficientes para responder, feedback do usuário indicando uma resposta incorreta ou outros?

Escolha a abordagem viável mais simples. Muitos casos de uso não exigem sistemas complexos de agentes ou multiagentes. Antes de começar a construir, avalie em que ponto do espectro de complexidade o seu problema se encontra. Uma lógica determinística simples ou várias funções AI serão suficientes? Se forem necessárias funções como acionamento dinâmico de ferramentas, raciocínio ou coordenação, considere o uso de agentes de acionamento de ferramentas ou sistemas multiagentes. Para obter orientações mais detalhadas, consulte os padrões de projeto de sistemas de agentes.

Esta base permite que você:

  1. Identifique a fonte de dados e as ferramentas de que seu agente precisará.
  2. Escreva instruções ou sugestões iniciais que reflitam o comportamento pretendido.
  3. Identifique especialistas ou testadores da área que possam fornecer exemplos representativos e feedback inicial.
  4. Crie juízes automatizados que codifiquem os critérios de avaliação e acelerem a iteração.

Nesta fase, você não precisa de clareza absoluta, e sua compreensão melhorará à medida que você praticar. Mas um alinhamento inicial mais robusto, especialmente sobre como a qualidade será medida e o que significa "pronto para produção", torna as melhorias de qualidade posteriores e a aprovação significativamente mais rápidas.

2. Construir um agente AI inicial

Após definir bem o caso de uso e os objetivos, você estará pronto para criar o protótipo do seu agente AI . Databricks oferece rotas guiadas baseadas em interface de usuário e rotas totalmente personalizadas, baseadas em código, para a criação de agentes AI .

2.1. Preparar dados e ferramentas

Os agentes AI geralmente usam dados e ferramentas para fornecer contexto e habilidades. Consulte as ferramentas de agentesAI para obter uma visão geral de como trabalhar com dados e ferramentas no Databricks.

Pesquise dados e ferramentas existentes antes de criar novos:

  • Explore os dados disponíveis no Unity Catalog ou na pesquisaworkspace para entender quais ativos controlados já existem. Isso ajuda você a entender qual contexto e quais recursos estão disponíveis antes de criar novas atividades.
  • No AI Playground, você pode view e selecionar ferramentas que já estão disponíveis para os agentes, como índices de Busca Vetorial, servidores MCP ou Funções UC.

Crie e gerencie novos ativos conforme necessário:

Todos esses dados ativos e ferramentas são gerenciados e versionados no Unity Catalog, tornando-os detectáveis e reutilizáveis em agentes e aplicativos AI .

2.2. Construa um agente inicial

Antes de criar um agente personalizado, avalie se uma oferta declarativa do Agent Bricks ou um acelerador de soluções Databricks existente já atende ao seu caso de uso. Para padrões comuns, essas abordagens guiadas podem reduzir significativamente a configuração, melhorar a qualidade default e acelerar o tempo de entrada em produção.

Caso ainda seja necessário um agente personalizado, os novos desenvolvedores devem começar experimentando o método mais rápido. Use o AI Playground para criar um protótipo de agente sem escrever código. O AI Playground permite experimentar diferentes modelos, realizar engenharia de software e testar ferramentas para compreender rapidamente a qualidade dos dados, o comportamento dos agentes e o potencial da sua abordagem. Em seguida, você pode exportar o agente como código para personalização e iteração adicionais.

Se você já possui o código do agente, pode importá-lo para Databricks e implantá-lo como um aplicativo Databricks.

Ao desenvolver seu agente, planeje com antecedência a avaliação e a produção:

  • Instrumente seu agente com o MLflow Tracing para registrar e analisar o comportamento do agente.

    • Nesta fase, concentre-se na correção funcional: assegure-se de que o agente execute o código de ponta a ponta e consiga aceder aos dados e ferramentas necessários.
    • Verifique o estado inicial do seu corpo para identificar problemas como seleção incorreta de ferramentas, falta de contexto ou alucinações.
    • Posteriormente, esses vestígios serão usados para avaliar a qualidade do agente.
  • Durante a implementação, considere o método de autenticação adequado para sua aplicação de produção.

3. Aprimorar a qualidade do agente de AI

Após a existência de um protótipo funcional, a próxima fase é um ciclo rigoroso de medição, compreensão e aprimoramento da qualidade. Databricks coloca a AvaliaçãoMLflow no centro desse ciclo, com o suporte do MLflow Tracing, do conjunto de dados de avaliação e dos avaliadores LLM .

Os sistemas de avaliação automatizados e os juízes do LLM proporcionam escala e consistência, mas o feedback humano é fundamental para validar a utilidade no mundo real e compreender falhas sutis. O feedback humano também orienta o desenvolvimento e a calibração dos juízes LLM . O feedback humano normalmente entra em três estágios à medida que o agente amadurece:

  1. Validação inicial por desenvolvedores e partes interessadas
  2. Revisão por especialistas de domínio mais amplo
  3. Feedback do usuário final

3.1. Valide o comportamento precoce.

Os desenvolvedores e um pequeno grupo de partes interessadas ou especialistas no domínio podem fornecer feedback rápido e inicial. Antes de ampliar os testes e a avaliação, confirme se o agente executa as ações corretas nas situações mais óbvias.

Durante a fase de prototipagem, os desenvolvedores costumam realizar uma "verificação de funcionamento" informal, consultando manualmente o agente para confirmar se ele é executado de ponta a ponta e se comporta conforme o esperado. Com a interface MLflow Tracing , os desenvolvedores podem anexar feedback ou expectativas diretamente aos rastreamentos para sinalizar problemas de qualidade, marcar exemplos bem-sucedidos e capturar anotações para avaliação e iteração futuras.

Após a implantação de um protótipo interno, a interface de chat do aplicativo de avaliações oferece uma interface simples para coletar feedback. Compartilhe a interface de bate-papo do seu protótipo com um pequeno grupo de desenvolvedores ou especialistas no assunto que possam fazer perguntas pertinentes e também perguntas problemáticas.

MLflow Tracing registra as interações e o feedback para construir um dataset inicial de resultados. Analise os rastreamentos com a interface do usuário do MLflow ou com o código para entender o desempenho e o comportamento do agente. Se os resultados forem ruins ou inesperados, use os rastreamentos para depurar:

  • Analise problemas de qualidade no agente, como uso indevido de ferramentas, alucinações ou falta de contexto. Aplique correções, como ajustes de prompts, uso de ferramentas ou dados. Consulte 3.4. Corrigir problemas e verificar novamente as melhorias.
  • À medida que você itera, pode usar o dataset de rastreamento como entradas de usuário representativas para gerar rastreamentos para seu novo protótipo.
  • Repita este ciclo: execução, inspeção, correção e reexecução, até que o agente processe todas ou a maioria das entradas representativas conforme o esperado.
  • Mais problemas poderão ser descobertos e resolvidos em versões posteriores. A melhoria da qualidade é um processo iterativo e não se limita a esta fase inicial.

Após esta etapa, você pode ter certeza de que o protótipo se comporta de forma sensata em casos comuns e atinge um nível razoável de qualidade, antes de investir em testes mais extensivos.

3.2. Ampliar os testes e o feedback

Após o protótipo funcionar em casos simples, intensifique a avaliação de qualidade ampliando seu conjunto de testadores beta e coletando feedback mais personalizado. Esta fase revela pontos cegos, como tópicos inesperados, consultas mal compreendidas, lacunas nas ferramentas e na recuperação de informações, ou padrões de uso emergentes. Isso também amplia seu conjunto de dados de avaliação.

  • Implemente a aplicação para um conjunto mais amplo de partes interessadas e especialistas da área, ou para usuários finais em versão beta. Incorpore o feedback deles à medida que o agente for exposto a padrões de uso mais amplos.
  • Capture feedback e expectativas mais detalhados usando o Review App, incluindo sessões com esquemas personalizados para feedback especializado.
  • Construir conjunto de dados de avaliação sincronizando o feedback humano e os registros de rótulos, preparando-se para avaliação e monitoramento sistemáticos na próxima etapa.
  • Para enriquecer ainda mais o dataset de avaliação, considere gerar conjuntos de avaliação sintéticos.

3.3. Avaliar a qualidade e depurar sistematicamente

À medida que seu conjunto de dados de avaliação se torna maior e mais diversificado, você precisará de maneiras estruturadas e mais automatizadas para detectar problemas, identificar as falhas mais importantes e entender as causas principais.

Na prática, você provavelmente dividirá seus dados em dois tipos de conjunto de dados de avaliação:

  • Testes de regressão : Dados com respostas AI de alta qualidade ajudam a definir o comportamento esperado. Utilize este conjunto de dados para validar se as novas versões do agente continuam a apresentar bom desempenho em uma ampla e diversificada gama de cenários esperados.
  • Descarte focado em problemas : Dados com respostas AI de baixa qualidade podem incluir uma variedade de comportamentos indesejados. Isole grupos de rastreamentos que exibem os mesmos tipos de comportamento de baixa qualidade para que você possa entender as causas principais e implementar correções direcionadas.

As ferramentas abaixo ajudam a construir e analisar ambos os tipos de conjunto de dados de avaliação.

execução de testes de regressão

  • Crie testes de regressão selecionando subconjuntos representativos de dados para os quais você tenha respostas AI de alta qualidade ou expectativas humanas.
  • Defina os critérios de avaliação usando juízes e avaliadores LLM integrados ou personalizados. A avaliação automatizada pode usar apenas modelos de aprendizagem de linguagem (LLMs) para avaliar a qualidade das respostas, ou pode comparar as respostas com as respostas ou expectativas reais.
  • Avaliação da execução em novas versões do seu agente para garantir que as atualizações não prejudiquem o bom funcionamento anterior.

Identifique os tipos de respostas de baixa qualidade.

Melhorar a precisão da detecção automatizada.

Embora seja possível começar a construir um conjunto de dados de avaliação usando principalmente feedback humano, você pode intensificar a avaliação com detecção automatizada. À medida que você itera, invista em avaliadores de LLM ou em sistemas de avaliação baseados em código, personalizados para sua aplicação e área de atuação.

  • Comece com os juízes integrados e adicione juízes personalizados e avaliadores baseados em código conforme necessário. Ao observar um modo de falha não capturado por um avaliador integrado, você pode automatizar a detecção futura com um avaliador ou pontuador personalizado, projetado para detectar esse tipo específico de falha.
  • Utilize o feedback humano para alinhar juízes personalizados com o conhecimento especializado. Ajustar os mecanismos de avaliação para reduzir falsos positivos e negativos aumentará a confiança na avaliação e triagem automatizadas.
  • Seus novos juízes e avaliadores podem ser usados tanto para avaliação e monitoramento automatizados quanto para filtrar rastros e construir conjuntos de dados para detalhamento.

Identifique eficazmente as causas raiz dos problemas.

Após identificar uma falha, é necessário determinar por que ela ocorreu.

  • Utilize MLflow Tracing para inspecionar manualmente cada etapa do raciocínio do agente:

    • Quais ferramentas foram selecionadas?
    • Como as entradas e saídas da ferramenta foram utilizadas.
    • Se a recuperação retornou contexto relevante
    • Como as respostas do modelo influenciaram as decisões subsequentes
  • Aplique AI MLflow para monitorar ou usar o agente como juiz para analisar rastros e apontar causas prováveis, como aterramento inadequado, estrutura de prompt ruim ou argumentos de ferramenta incorretos.

  • Compare as versões na interface de avaliação do MLflow para verificar se os problemas persistem ou regridem entre as iterações.

O resultado ideal desta etapa é ter uma compreensão estruturada do que está falhando, por que está falhando e como corrigir o problema. A automação e os juízes específicos da aplicação permitem que você itere com confiança à medida que seu agente se torna mais capaz e o conjunto de testes se torna mais complexo.

3.4. Corrigir problemas e verificar novamente as melhorias.

Assim como os problemas são específicos de cada aplicação, as correções devem ser adaptadas à sua aplicação. Exemplos de soluções comuns incluem:

  • Otimização de prompts: refine as instruções do agente manualmente ou use a otimização de promptsdata-driven. Para otimização mais abrangente do agente, como ajuste de raciocínio em várias etapas ou uso de ferramentas, use o ajuste DSPy.
  • Ferramentas e dados: Aprimore as ferramentas ou os fluxos de recuperação quando os rastreamentos mostrarem informações faltantes ou fundamentação inadequada.
  • Roteamento: Quando os rastreamentos mostrarem que as ferramentas ou subagentes errados foram chamados, melhore os metadados da ferramenta ou do agente, os avisos ou o modelo de roteamento.
  • Medidas de segurança: Quando as respostas violarem as regras de segurança ou vazarem informações, use as medidas de segurançaAI Gateway ou medidas de segurança personalizadas em seu agente.
  • Recurso alternativo: Lide com casos extremos, dados ausentes ou falhas em chamadas API de forma adequada, utilizando mecanismos fallback , como endpoints API alternativos ou respostas fallback .

À medida que você implementa correções, use o controle de versão do aplicativo e o Registro de Prompt para registrar as versões, facilitando comparações e testes de regressão.

Cada correção em prompts, recuperação, ferramentas, dados ou outras partes do seu agente deve ser validada da mesma forma que foi descoberta. Execute novamente a nova versão do agente no mesmo conjunto de dados de avaliação para confirmar que o problema foi corrigido e que nenhuma regressão foi introduzida.

4. Alinhar com as partes interessadas antes da produção

Antes de liberar um agente em um ambiente real, as equipes precisam ter um entendimento compartilhado de suas capacidades atuais, limitações e qualidade mensurável. Chegar a esse ponto normalmente requer várias rodadas de iteração e melhoria de qualidade na etapa 3. Nessa etapa, traduza os sinais técnicos (como métricas de avaliação, métricas de sistema e exemplos de rastreamento) para o contexto de negócios que, em última análise, determina se o agente está realmente "pronto".

  • Traduzir os resultados da avaliação em sinais comerciais claros: Resumir a precisão, a estabilidade, a segurança e as limitações conhecidas em uma linguagem que as partes interessadas possam utilizar.
  • Confirme se os critérios de qualidade padronizados foram atendidos: certifique-se de que as métricas de avaliação exigidas, as verificações de regressão e o limite de cobertura dataset sejam aprovados para a versão candidata.
  • Validar a prontidão operacional e obter a aprovação: Analisar a configuração de monitoramento, as diretrizes e o plano de implementação. Documentar os riscos e os critérios de aceitação antes da produção.

5. Liberar para produção e monitorar continuamente a qualidade.

Atingir a produção é um marco importante! Significa que o agente está pronto para usuários reais e para causar impacto real. Ao mesmo tempo, a produção também marca o início de um novo ciclo. Após a entrada em operação de um agente, ele passa por monitoramento e aprimoramento contínuos, pois o uso real revelará novos comportamentos, casos extremos e problemas.

  • Coletar feedback dos usuários finais em produção. Vincule o feedback do usuário a rastreamentos específicos para que ele possa ser analisado juntamente com o comportamento do modelo. Você pode fazer isso registrando o feedback como avaliações anexadas ao rastreamento original.

  • Utilize o AI Gateway para mecanismos de controle, roteamento e registro consistente de logs. Garanta que cada nova versão do agente possa ser avaliada em relação ao tráfego real sem atritos operacionais.

  • Monitore a qualidade do tráfego em tempo real executando avaliações em amostras de rastreamento de produção. Confirme se a nova versão tem um desempenho pelo menos tão bom quanto as versões anteriores e procure por novos problemas à medida que os usuários enviam novos tipos de consultas. O monitoramento contínuo mantém o agente confiável, seguro e alinhado às necessidades do negócio à medida que ele evolui. MLflow fornece um painel de monitoramento, mas como os rastreamentos podem ser armazenados no Unity Catalog, você pode personalizar painéis e alertas:

  • Atuar nas percepções de produção:

    • Para casos de uso de alto risco, vincule o monitoramento a mecanismos de reversão automatizados ou controlados para corrigir problemas críticos.
    • Use sua produção em sua próxima iteração. Converta falhas do mundo real em novos dados de avaliação e retorne ao ciclo de avaliação e depuração para construir a próxima versão aprimorada do seu agente.

Próximos passos