Agentes de rastreamento implantados no Databricks

Esta página mostra como implantar aplicações GenAI instrumentadas no Databricks para que os rastreamentos de produção sejam capturados automaticamente.

Os rastreamentos são registros de um experimento MLflow para visualização em tempo real. Opcionalmente, armazene-os usando tabelas Delta para armazenamento de longo prazo. Veja "Implantar um aplicativo rastreado" para comparar as opções de implantação e registro de rastreamento.

Para aplicativos implantados fora Databricks, consulte Agentes de rastreamento implantados fora do Databricks.

Visão geral do rastreamento de produção do MLflow

implantado com o Agent Framework (recomendado)

Ao implantar aplicações GenAI através do Mosaic AI Agent Framework, MLflow Tracing funciona automaticamente sem configuração adicional. Os registros são armazenados no experimento MLflow do agente.

os passos para implantação

Primeiro, configure o (s) local (s) de armazenamento para rastreamentos:

Se o senhor planeja usar o monitoramento de produção para armazenar traços nas tabelas Delta, certifique-se de que ele esteja ativado para o seu workspace.
Crie um MLflow Experiment para armazenar os traços de produção do seu aplicativo.

Em seguida, no Notebook Python, instale seu agente com MLflow Tracing e use o Agent Framework para implantá-lo:

Instale o mlflow[databricks] em seu ambiente Python. Use a versão mais recente.
Conecte-se ao experimento MLflow usando mlflow.set_experiment(...).
Envolva o código do seu agente usando as interfaces de criação do Agent Framework. No código do agente, ative o MLflow Tracing usando instrumentação automática ou manual.
Registre seu agente como um modelo MLflow e registre-o em Unity Catalog.
Certifique-se de que mlflow esteja nas dependências Python do modelo, com a mesma versão de pacote usada no ambiente do Notebook.
Use agents.deploy(...) para implantar o modelo Unity Catalog (agente) em um modelo de serviço endpoint.

nota

Se você implantar um agente a partir de um Notebook armazenado em uma pasta Git Databricks, o rastreamento em tempo real MLflow 3 não funcionará por default.

Para habilitar o rastreamento em tempo real, defina o experimento como um experimento não associado ao Git usando mlflow.set_experiment() antes de executar agents.deploy().

Os rastreamentos do seu agente agora aparecem no experimento do MLflow em tempo real.

Exemplo de notebook

Este Notebook demonstra a implantação dos passos acima.

Estrutura do agente e MLflow Tracing Notebook

Open notebook in new tab

implantado com serviço de CPU personalizado (alternativa)

Se você não puder usar o Agent Framework, implante seu agente usando um modelo de servidor de CPU personalizado.

Primeiro, configure o (s) local (s) de armazenamento para rastreamentos:

Se o senhor planeja usar o monitoramento de produção para armazenar traços nas tabelas Delta, certifique-se de que ele esteja ativado para o seu workspace.
Crie um MLflow Experiment para armazenar os traços de produção do seu aplicativo.

Em seguida, no Notebook Python, instale seu agente com MLflow Tracing e use a UI servindo modelo ou APIs para implantar seu agente:

Registre seu agente como um modelo MLflow com instrumentação de rastreamento automática ou manual .
implantado o modelo para servir a CPU.
provisionamento a entidade de serviço ou Personal access token (PAT) com acesso CAN_EDIT ao experimento MLflow.
Na página do endpoint de serviço da CPU, acesse "Edit endpoint." Para cada modelo implantado a ser rastreado, adicione a seguinte variável de ambiente:
ENABLE_MLFLOW_TRACING=true
MLFLOW_EXPERIMENT_ID=<ID of the experiment you created>
Se o senhor provisionar uma entidade de serviço, defina DATABRICKS_CLIENT_ID e DATABRICKS_CLIENT_SECRET. Se o senhor provisionar um PAT, defina DATABRICKS_HOST e DATABRICKS_TOKEN.

visualizar os rastros de produção

Visualize os rastros de produção na interface de usuário de experimentos MLflow . Os registros de produção mostram:

Consultas do usuário e respostas do agente
Feedback (curtir/não curtir, comentários)
Taxas de erro e padrões de falha
Latência e métricas de desempenho
Consumo de tokens

UI de traços de produção

Registros de log para as tabelas Delta

Opcionalmente, log os rastreamentos em tabelas Delta além do seu experimento MLflow :

Tabelas de monitoramento de produção ( recomendado ): A tarefa para sincronizar rastreamentos com uma tabela Delta é executada a cada ~15 minutos. Você não precisa habilitar nenhum outro recurso para que isso funcione. Os traços não têm limites de tamanho.
AI Tabelas de inferência habilitadas para gateway: Ative editando as configurações do AI Gateway na página servindo modelo endpoint. Esteja ciente das limitações nos tamanhos dos traços e dos atrasos na sincronização dos rastreamentos com as tabelas.

Limitações

O registro de traços nos experimentos do MLflow e nas tabelas de monitoramento de produção tem limites no número de traços e na carga de pico. Se você precisar armazenar mais de 100 mil rastreamentos por experimento ou tiver um pico de carga de > 60 consultas por segundo (QPS), use este formulário para solicitar um aumento.

Próximas etapas

Adicione contexto aos rastreamentos - Anexe metadados para acompanhamento de solicitações, sessões de usuário e dados de ambiente.
Acompanhe o uso de tokens - Monitore o consumo de tokens para acompanhamento de custos.
Monitoramento da produção - Avalie automaticamente os rastros com avaliadores.

implantado com o Agent Framework (recomendado)​

os passos para implantação​

Exemplo de notebook​

Estrutura do agente e MLflow Tracing Notebook

implantado com serviço de CPU personalizado (alternativa)​

visualizar os rastros de produção​

Registros de log para as tabelas Delta​

Limitações​

Próximas etapas​