Pular para o conteúdo principal

implementou um agente para aplicações generativas AI (servindo modelo)

info

Para novos casos de uso, Databricks recomenda a implantação de agentes no Databricks Apps para controle total sobre o código do agente, a configuração do servidor e o fluxo de trabalho de implantação. Veja Criar um agente AI e implantá-lo em Databricks Apps. Para migrar um agente existente, consulte Migrar um agente do Serviting Modelo para Databricks Apps.

Implante seu agente AI no Mosaic AI Model Serving usando a função deploy() da API Python do Agent Framework. A implantação cria um endpoint de serviço com ferramentas integradas de escalabilidade, monitoramento e colaboração.

Seu agente implantado se integra automaticamente aos recursos de avaliação e monitoramento do MLflow 3 , incluindo rastreamento em tempo real, o aplicativo Review para feedback das partes interessadas e monitoramento.

Requisitos

  • Registre seu agente no Unity Catalog.
  • Instale o MLflow 3.1.3 ou acima para agentes implantados usando a API deploy() de databricks.agents.
  • Agentes implantados de fora de um Notebook Databricks requerem a versão 1.1.0 SDK databricks-agents ou acima.

Instale os pré-requisitos:

Python
# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

agentes de implantação usando deploy()

implementou seu agente em um endpoint de modelo interativo:

Python
from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

Ao chamar o método implant(), Databricks configura automaticamente a infraestrutura de produção e integra seu agente ao recurso AI gen MLflow realizando os seguintes passos:

atenção

Se você estiver implementando um agente de um Notebook armazenado em uma pasta Git Databricks, o rastreamento real de tempo MLflow 3 não funcionará por default.

Para habilitar o rastreamento em tempo real, defina o experimento como um experimento não associado ao Git usando mlflow.set_experiment() antes de executar agents.deploy().

A função deploy() executa as seguintes ações em default:

  • Cria um endpointde modelo de serviço para hospedar seu agente com escalonamento automático e balanceamento de carga.
  • provisionamento autenticação segura para que seu agente acesse o recurso subjacente
  • Permite o monitoramento em tempo real por meio do rastreamento de experimentos do MLflow e a avaliação automatizada da qualidade no tráfego de produção.
  • Estabelece a colaboração entre as partes interessadas usando o aplicativo Review para coleta de feedback.

Para obter mais informações, consulte Ações detalhadas de implantação.

Personalize a implantação

Passe argumentos adicionais para deploy() para personalizar a implantação. Por exemplo, você pode habilitar a escalação para zero para o endpoint parado passando scale_to_zero_enabled=True. Isso reduz os custos, mas aumenta o tempo de resposta às consultas iniciais.

Para obter mais parâmetros, consulte Databricks Agents Python API.

Recuperar e excluir implantações de agentes

Recuperar ou gerenciar implantações de agentes existentes. Consulte a API Python dos Agentes Databricks.

Python
from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = "" # Set to your Unity Catalog model name
agent_model_version = 1 # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

Autenticação para recurso dependente

Os agentes frequentemente precisam se autenticar em outros recursos para concluir tarefas quando são implantados. Por exemplo, um agente pode precisar acessar um índice de Busca Vetorial para consultar dados não estruturados.

Para obter informações sobre métodos de autenticação, incluindo quando usá-los e como configurá-los, consulte Autenticação para agentes AI (servindo modelo).

Redes para implantação de agentes

Se o seu workspace utiliza o serviço Connect privado ou políticas de rede de saída restrita, você deve configurar o acesso à rede para que as implantações do agente sejam bem-sucedidas. O endpoint do modelo de serviço requer acesso externo para download dependências durante o processo de construção do contêiner. Os agentes também podem precisar acessar APIs externas em tempo de execução.

Para agentes implantados no Databricks Apps, consulte Implantar aplicativos em ambientes Connect de serviço privado para obter orientações detalhadas sobre como configurar políticas de DNS ou de saída.

Para agentes implantados no modelo de operação, verifique o seguinte:

  • Dependências de tempo de compilação: Sua política de rede deve permitir o acesso aos repositórios de pacotes exigidos pelo ambiente do seu agente, como pypi.org ou files.pythonhosted.org para o pacote Python . Databricks logs falhas de compilação causadas por acesso de rede bloqueado com network_source_type: ML Build na tabela de sistema system.access.outbound_network . Consulte Validar com modelo de atividade.
  • DependênciasRuntime : Se o seu agente chamar APIs ou serviços externos durante a inferência, adicione esses domínios à lista de permissões da sua política de rede.
  • Resolução de DNS: Em ambientes Connect de serviço privado, verifique se o seu agente consegue resolver o nome do host de qualquer serviço Databricks do qual ele dependa, como o Vector Search ou o endpoint SQL warehouse .

Ações detalhadas de implantação

A tabela a seguir lista as ações de implantação detalhadas que resultam de uma chamada deploy() . As implantações podem levar até 15 minutos para serem concluídas.

deploy() Ação

Descrição

Criar endpointde modelo casual

Cria um endpoint de API REST escalável que fornece seu agente para aplicativos voltados para o usuário com balanceamento de carga automático.

provisionamento autenticação segura

Fornece automaticamente credenciais de curta duração que permitem ao seu agente acessar recursos doDatabricks (índices de pesquisa vetorial, funções Unity Catalog , etc.) com as permissões mínimas necessárias.

O Databricks verifica se o proprietário do endpoint possui as permissões adequadas antes de emitir as credenciais, impedindo o acesso não autorizado.

Para recurso nãoDatabricks , passe variável de ambiente com segredos para deploy(). Consulte Configurar o acesso ao recurso do endpoint do modelo interativo.

Ativar aplicativo de avaliação

Fornece uma interface web onde as partes interessadas podem interagir com seu agente e fornecer feedback. Consulte a seção "Coletar feedback e expectativas rotulando os registros existentes".

Ativar rastreamento em tempo real

Registra todas as interações do agente em um experimento MLflow em tempo real, fornecendo visibilidade imediata para monitoramento e.

  • Os rastreamentos do seu endpoint são gravados no experimento MLflow atualmente ativo (definido com mlflow.set_experiment()).
  • Todos os agentes no endpoint compartilham o mesmo experimento para armazenamento de rastreamento.
  • Os rastreamentos também gravam em tabelas de inferência para armazenamento de longo prazo.

Ativar monitoramento de produção (beta)

Configura a avaliação automatizada da qualidade que os avaliadores de execução aplicam ao tráfego de produção. Consulte o monitoramento da produção.

Habilitar tabelas de inferência

Cria tabelas que log as entradas e respostas das solicitações para fins de auditoria e análise.

Aviso: logs de solicitações e logs de avaliação estão obsoletos e serão removidos em uma versão futura. Em vez disso, utilize o rastreamento em tempo real do MLflow 3. Consulte a seção sobre a descontinuação logs de solicitações e logs de avaliação para obter orientações sobre a migração.

  • Todos os agentes usam tabelas de inferência do AI Gateway para registro de logs.
  • As respostas de transmissão log apenas os campos compatíveis com os esquemas ResponsesAgent, ChatAgent e ChatCompletion .

Registre REST API solicitações e comentários sobre o aplicativo de revisão

registra as solicitações e o feedback do API em uma tabela de inferência.

Aviso: O modelo de feedback está obsoleto e será removido em uma versão futura. Atualize para o MLflow 3 e use a API log_feedback em vez disso. Consulte a seção Coletar feedback do usuário.

  • Criar um modelo de feedback para aceitar e log comentários do aplicativo de avaliações.
  • Esse modelo é servido na mesma CPU servindo modelo endpoint que seu agente implantado.

Próximos passos