Descrição do pipeline de dados do RAG e etapas de processamento
Entenda como preparar dados não estruturados para aplicativos RAG. Os dados não estruturados incluem qualquer coisa sem estrutura ou organização específica, como arquivos PDF com texto e imagens ou conteúdo multimídia, como áudio e vídeo.
Prepare dados não estruturados para recuperação
O pipeline de dados não estruturados prepara os dados para recuperação usando a pesquisa semântica. A pesquisa semântica interpreta o significado e a intenção por trás de uma consulta do usuário para oferecer resultados mais relevantes. A pesquisa semântica é apenas uma abordagem para implementar o componente de recuperação de um aplicativo RAG.
O cálculo da similaridade pode exigir muitos recursos. Índices vetoriais, como o Mosaic AI Vector Search, otimizam esse processo organizando e navegando nos embeddings de forma eficiente, muitas vezes usando métodos de aproximação avançados que evitam a necessidade de comparar cada embedding individualmente.
Criar um pipeline de dados de aplicativos RAG
Cada etapa do pipeline de dados envolve decisões que afetam a qualidade do aplicativo RAG. Para obter mais informações e um exemplo de Notebook executável, consulte Criar um pipeline de dados não estruturado para o RAG.
A seguir estão as etapas típicas de um pipeline de dados em um aplicativo RAG que usa dados não estruturados:
-
Composição e ingestão de corpus : Selecionar a fonte de dados e o conteúdo corretos com base no caso de uso específico.
-
Pré-processamento de dados : Transformar os dados brutos em um formato limpo e consistente, adequado para incorporação e recuperação.
- Análise : Extrair informações relevantes do uso de dados brutos com técnicas de análise apropriadas.
- Enriquecimento : enriquecer dados com metadados adicionais e remover ruídos.
-
Fragmentação: divida os dados analisados em partes menores e gerenciáveis para uma recuperação eficiente.
-
Incorporação : converta os dados de texto fragmentados em uma representação vetorial numérica que capture seu significado semântico.
-
Indexação e armazenamento : Crie índices vetoriais eficientes para otimizar o desempenho da pesquisa.