RAG (Retrieval Augmented Generation) em Databricks

A geração aumentada de recuperação (RAG) é uma técnica avançada que combina modelos de linguagem grandes (LLMs) com recuperação de dados tempo-real para gerar respostas mais precisas, atualizadas e contextualmente relevantes.

Essa abordagem é especialmente valiosa para responder a perguntas sobre informações proprietárias, que mudam com frequência ou específicas do domínio.

O que é geração de recuperação aumentada?

Na forma mais simples, um agente RAG faz o seguinte:

Recuperação : A solicitação do usuário é usada para consultar uma base de conhecimento externa, como um armazenamento de vetores, pesquisa de palavras-chave ou banco de dados SQL. O objetivo é obter dados de apoio para a resposta do LLM.
Aumento : Os dados de suporte são combinados com a solicitação do usuário, geralmente usando um padrão com formatação adicional e instruções para o LLM, para criar um prompt.
Geração : O prompt é passado para o LLM para gerar uma resposta à solicitação do usuário.

O fluxo de um aplicativo RAG desde a solicitação do usuário até a recuperação e resposta de dados.

Benefícios do RAG

O RAG melhora os LLMs das seguintes maneiras:

Conhecimento proprietário: o RAG pode incluir informações proprietárias não utilizadas inicialmente para treinar o LLM, como memorandos, e-mails e documentos para responder a perguntas específicas do domínio.
Informações atualizadas: Um aplicativo RAG pode fornecer ao site LLM informações de uma base de conhecimento atualizada.
Citação de fontes: o RAG permite que os LLMs citem fontes específicas, permitindo que os usuários verifiquem a precisão factual das respostas.
Segurança de dados e listas de controle de acesso (ACL): a etapa de recuperação pode ser projetada para recuperar seletivamente informações pessoais ou proprietárias com base nas credenciais do usuário.

Componentes RAG

Um aplicativo RAG típico envolve vários estágios:

pipeline de dados : Pré-processar e indexar documentos, tabelas ou outros dados para uma recuperação rápida e precisa.
Cadeia RAG (recuperação, aumento, geração) : chame uma série (ou cadeia) de etapas para:
- Entenda a pergunta do usuário.
- Recupere dados de suporte.
- Aumente o prompt com dados de suporte.
- Gerar uma resposta de um LLM usando o prompt aumentado.
Avaliação e monitoramento : Avalie o aplicativo RAG para determinar sua qualidade, custo e latência e garantir que ele atenda aos seus requisitos comerciais.
Governança e LLMOps : rastreie e gerencie o ciclo de vida de cada componente, incluindo a linhagem de dados e os controles de acesso.

Diagrama dos componentes do aplicativo RAG.

Tipos de dados RAG: estruturados e não estruturados

A arquitetura RAG pode funcionar com dados de suporte não estruturados ou estruturados. Os dados que você usa com RAG dependem do seu caso de uso.

Dados não estruturados: dados sem uma estrutura ou organização específica.

PDFs
Documentos do Google/Office
Wikis
Imagens
Vídeos

Dados estruturados: dados tabulares organizados em linhas e colunas com um esquema específico, como tabelas em um banco de dados.

Registros de clientes em um sistema de BI ou Data Warehouse
Dados de transação de um banco de dados SQL
Dados de APIs de aplicativos (por exemplo, SAP, Salesforce, etc.)

Avaliação & monitoramento

Avaliação e monitoramento ajudam a determinar se sua aplicação RAG atende aos requisitos de qualidade, custo e latência. A avaliação ocorre durante o desenvolvimento, enquanto o monitoramento acontece uma vez que a aplicação é implementada em produção.

O RAG sobre dados não estruturados tem muitos componentes que afetam a qualidade. Por exemplo, as alterações na formatação dos dados podem influenciar os blocos recuperados e a capacidade do LLM de gerar respostas relevantes. Portanto, é importante avaliar componentes individuais, além da aplicação geral.

Para obter mais informações, consulte Mosaic AI Agent Evaluation (MLflow 2).

RAG em Databricks

A Databricks oferece uma plataforma de ponta a ponta para o desenvolvimento de RAGs, incluindo:

Pipeline de dados integrado com Delta Lake e LakeFlow Pipeline declarativo
Pesquisa vetorial escalável com o Databricks Vector Search
servindo modelo e ferramentas de orquestração
Gen AI avaliação para melhorar o desempenho e a qualidade
Gen AI monitoramento para aplicações RAG implantadas
governança e segurança integradas, consulte Security and Trust Center e AI Gateway.

Próximas etapas

Saiba mais sobre o pipeline de dados, um componente key dos aplicativos RAG. Consulte Criar um pipeline de dados não estruturados para o RAG
Use o AI Playground para criar um protótipo de seu próprio agente RAG. Consulte Protótipo de agentes de chamada de ferramenta no AI Playground.
Use o Agent Bricks: O Knowledge Assistant cria um agente RAG como um chatbot em seus documentos e como um endpoint que pode ser usado em aplicativos downstream. Consulte Use Agent Bricks: Knowledge Assistant para criar um chatbot de alta qualidade sobre seus documentos.

O que é geração de recuperação aumentada?​

Benefícios do RAG​

Componentes RAG​

Tipos de dados RAG: estruturados e não estruturados​

Avaliação & monitoramento​

RAG em Databricks​

Próximas etapas​