implantado um agente para aplicativos generativos AI

Implante seu agente AI no Mosaic AI Model Serving usando a função deploy() da API Python do Agent Framework. A implantação cria um endpoint de serviço com ferramentas integradas de escalabilidade, monitoramento e colaboração.

Seu agente implantado se integra automaticamente aos recursos de avaliação e monitoramento do MLflow 3 , incluindo rastreamento em tempo real, o aplicativo Review para feedback das partes interessadas e monitoramento.

Requisitos

MLflow 3
MLflow 2.x

Registre seu agente no Unity Catalog.
Instale o MLflow 3.1.3 ou acima para agentes implantados usando a API deploy() de databricks.agents.
Agentes implantados de fora de um Notebook Databricks requerem a versão 1.1.0 SDK databricks-agents ou acima.

Instale os pré-requisitos:

Python
# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

importante

Databricks recomenda o uso MLflow 3 para implantar agentes, pois algumas funcionalidades de registro MLflow 2 serão descontinuadas. Veja as ações de implantação detalhadas.

Registre seu agente no Unity Catalog.
Instale MLflow 2.13.1 ou superior para implantar agentes usando a API deploy() de databricks.agents.
A implantação de agentes de fora de um notebook Databricks requer databricks-agents SDK versão 0.12.0 ou acima.

Instale os pré-requisitos:

Python
# Install prerequisites
%pip install mlflow>=2.13.1 databricks-agents>=0.12.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

agentes de implantação usando `deploy()`

implementou seu agente em um endpoint de modelo interativo:

Python
from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

Ao chamar o método implant(), Databricks configura automaticamente a infraestrutura de produção e integra seu agente ao recurso AI gen MLflow realizando os seguintes passos:

atenção

Se você estiver implementando um agente de um Notebook armazenado em uma pasta Git Databricks, o rastreamento real de tempo MLflow 3 não funcionará por default.

Para habilitar o rastreamento em tempo real, defina o experimento como um experimento não associado ao Git usando mlflow.set_experiment() antes de executar agents.deploy().

A função deploy() executa as seguintes ações em default:

Cria um endpointde modelo de serviço para hospedar seu agente com escalonamento automático e balanceamento de carga.
provisionamento autenticação segura para que seu agente acesse o recurso subjacente
Permite o monitoramento em tempo real por meio do rastreamento de experimentos do MLflow e a avaliação automatizada da qualidade no tráfego de produção.
Estabelece a colaboração entre as partes interessadas usando o aplicativo Review para coleta de feedback.

Para obter mais informações, consulte Ações detalhadas de implantação.

Personalize a implantação

Passe argumentos adicionais para deploy() para personalizar a implantação. Por exemplo, você pode habilitar a escalação para zero para o endpoint parado passando scale_to_zero_enabled=True. Isso reduz os custos, mas aumenta o tempo de resposta às consultas iniciais.

Para obter mais parâmetros, consulte Databricks Agents Python API.

Recuperar e excluir implantações de agentes

Recuperar ou gerenciar implantações de agentes existentes. Consulte a API Python dos Agentes Databricks.

Python
from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = ""    # Set to your Unity Catalog model name
agent_model_version = 1  # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

Autenticação para recurso dependente

Os agentes frequentemente precisam se autenticar em outros recursos para concluir tarefas quando são implantados. Por exemplo, um agente pode precisar acessar um índice de Busca Vetorial para consultar dados não estruturados.

Para obter informações sobre métodos de autenticação, incluindo quando usá-los e como configurá-los, consulte Autenticação para agentes AI.

Ações detalhadas de implantação

A tabela a seguir lista as ações de implantação detalhadas que resultam de uma chamada deploy() . As implantações podem levar até 15 minutos para serem concluídas.

MLflow 3
MLflow 2

`deploy()` Ação	Descrição
Criar endpointde modelo casual	Cria um endpoint de API REST escalável que fornece seu agente para aplicativos voltados para o usuário com balanceamento de carga automático.
provisionamento autenticação segura	Fornece automaticamente credenciais de curta duração que permitem ao seu agente acessar recursos doDatabricks (índices de pesquisa vetorial, funções Unity Catalog , etc.) com as permissões mínimas necessárias. O Databricks verifica se o proprietário do endpoint possui as permissões adequadas antes de emitir as credenciais, impedindo o acesso não autorizado. Para recurso nãoDatabricks , passe variável de ambiente com segredos para `deploy()`. Consulte Configurar o acesso ao recurso do endpoint do modelo interativo.
Ativar aplicativo de avaliação	Fornece uma interface web onde as partes interessadas podem interagir com seu agente e fornecer feedback. Consulte a seção "Coletar feedback e expectativas rotulando os registros existentes".
Ativar rastreamento em tempo real	Registra todas as interações do agente em um experimento MLflow em tempo real, fornecendo visibilidade imediata para monitoramento e. Os rastreamentos do seu endpoint são gravados no experimento MLflow atualmente ativo (definido com `mlflow.set_experiment()`). Todos os agentes no endpoint compartilham o mesmo experimento para armazenamento de rastreamento. Os rastreamentos também gravam em tabelas de inferência para armazenamento de longo prazo.
Ativar monitoramento de produção (beta)	Configura a avaliação automatizada da qualidade que os avaliadores de execução aplicam ao tráfego de produção. Consulte o monitoramento da produção.
Habilitar tabelas de inferência	Cria tabelas que log as entradas e respostas das solicitações para fins de auditoria e análise. Aviso: logs de solicitações e logs de avaliação estão obsoletos e serão removidos em uma versão futura. Em vez disso, utilize o rastreamento em tempo real do MLflow 3. Consulte a seção sobre a descontinuação logs de solicitações e logs de avaliação para obter orientações sobre a migração. Todos os agentes usam tabelas de inferência do AI Gateway para registro de logs. As respostas de transmissão log apenas os campos compatíveis com os esquemas `ResponsesAgent`, `ChatAgent` e `ChatCompletion` .
Registre REST API solicitações e comentários sobre o aplicativo de revisão	registra as solicitações e o feedback do API em uma tabela de inferência. Aviso: O modelo de feedback está obsoleto e será removido em uma versão futura. Atualize para o MLflow 3 e use a API `log_feedback` em vez disso. Consulte a seção Coletar feedback do usuário. Criar um modelo de feedback para aceitar e log comentários do aplicativo de avaliações. Esse modelo é servido na mesma CPU servindo modelo endpoint que seu agente implantado.

`deploy()` Ação	Descrição
Criar endpointde modelo casual	Cria um endpoint de API REST escalável que fornece seu agente para aplicativos voltados para o usuário com balanceamento de carga automático.
provisionamento autenticação segura	Fornece automaticamente credenciais de curta duração que permitem ao seu agente acessar recursos doDatabricks (índices de pesquisa vetorial, funções Unity Catalog , etc.) com as permissões mínimas necessárias. O Databricks verifica se o proprietário do endpoint possui as permissões adequadas antes de emitir as credenciais, impedindo o acesso não autorizado. Para recurso nãoDatabricks , passe variável de ambiente com segredos para `deploy()`. Consulte Configurar o acesso ao recurso do endpoint do modelo interativo.
Ativar aplicativo de avaliação	Fornece uma interface web onde as partes interessadas podem interagir com seu agente e fornecer feedback. Consulte a seção "Coletar feedback e expectativas rotulando os registros existentes".
Habilitar tabelas de inferência	Cria tabelas que log as entradas e respostas das solicitações para fins de auditoria e análise. Aviso: logs de solicitações e logs de avaliação estão obsoletos e serão removidos em uma versão futura. Consulte a seção sobre a descontinuação logs de solicitações e logs de avaliação para obter orientações sobre a migração. Todos os agentes usam tabelas de inferência do AI Gateway para registro de logs. Esquemas de agentes obsoletos (implantados com `databricks-agents<1.4.0`) usam tabelas de inferência padrão As respostas de transmissão log apenas os campos compatíveis com os esquemas `ResponsesAgent`, `ChatAgent` e `ChatCompletion` .
Registrar solicitações API REST e avaliar o feedback do aplicativo (obsoleto)	registra as solicitações e o feedback do API em uma tabela de inferência. Aviso: O modelo de feedback está obsoleto e será removido em uma versão futura. Atualize para o MLflow 3 e use a API `log_feedback` em vez disso. Consulte a seção Coletar feedback do usuário. Criar um modelo de feedback para aceitar e log comentários do aplicativo de avaliações. Esse modelo é servido na mesma CPU servindo modelo endpoint que seu agente implantado.

Requisitos​

agentes de implantação usando deploy()​

Personalize a implantação​

Recuperar e excluir implantações de agentes​

Autenticação para recurso dependente​

Ações detalhadas de implantação​

Próximos passos​