Pular para o conteúdo principal

Descrição do pipeline de dados do RAG e etapas de processamento

Entenda como preparar dados não estruturados para aplicativos RAG. Os dados não estruturados incluem qualquer coisa sem estrutura ou organização específica, como arquivos PDF com texto e imagens ou conteúdo multimídia, como áudio e vídeo.

Diagrama dos componentes do pipeline de dados do RAG.

Prepare dados não estruturados para recuperação

O pipeline de dados não estruturados prepara os dados para recuperação usando a pesquisa semântica. A pesquisa semântica interpreta o significado e a intenção por trás de uma consulta do usuário para oferecer resultados mais relevantes. A pesquisa semântica é apenas uma abordagem para implementar o componente de recuperação de um aplicativo RAG.

O cálculo da similaridade pode exigir muitos recursos. Índices vetoriais, como o Mosaic AI Vector Search, otimizam esse processo organizando e navegando nos embeddings de forma eficiente, muitas vezes usando métodos de aproximação avançados que evitam a necessidade de comparar cada embedding individualmente.

Criar um pipeline de dados de aplicativos RAG

Cada etapa do pipeline de dados envolve decisões que afetam a qualidade do aplicativo RAG. Para obter mais informações e um exemplo de Notebook executável, consulte Criar um pipeline de dados não estruturado para o RAG.

A seguir estão as etapas típicas de um pipeline de dados em um aplicativo RAG que usa dados não estruturados:

  1. Composição e ingestão de corpus : Selecionar a fonte de dados e o conteúdo corretos com base no caso de uso específico.

  2. Pré-processamento de dados : Transformar os dados brutos em um formato limpo e consistente, adequado para incorporação e recuperação.

    1. Análise : Extrair informações relevantes do uso de dados brutos com técnicas de análise apropriadas.
    2. Enriquecimento : enriquecer dados com metadados adicionais e remover ruídos.
  3. Fragmentação: divida os dados analisados em partes menores e gerenciáveis para uma recuperação eficiente.

  4. Incorporação : converta os dados de texto fragmentados em uma representação vetorial numérica que capture seu significado semântico.

  5. Indexação e armazenamento : Crie índices vetoriais eficientes para otimizar o desempenho da pesquisa.