Ingerir ou conectar dados brutos

Visualização

Esse recurso está em Private Preview. Para experimentar, entre em contato com o seu contato da Databricks.

Procurando um documento diferente do RAG Studio? Acesse o índice da documentação do RAG

O guia a seguir orienta o senhor sobre a ingestão de dados para o seu aplicativo RAG Studio.

Importante

A default 📥 Data Ingestor downloads a documentação da Databricks.

O senhor pode modificar o código em src/notebooks/ingest_data.py para fazer a ingestão a partir de outra fonte ou ajustar config/rag-config.yml para usar dados que já existem em um Volume do Unity Catalog.

O site default 🗃️ Data Processor que acompanha o RAG Studio é compatível apenas com arquivos HTML. Se o senhor tiver outros tipos de arquivo no volume Unity Catalog, siga os passos em Creating a 🗃️ Data Processor version para ajustar o código 🗃️ Data Processor.

  1. Execute o seguinte comando para iniciar o processo de ingestão de dados. Esse passo levará aproximadamente 10 minutos.

    ./rag ingest-data -e dev
    
  2. O senhor verá a seguinte mensagem no console quando a ingestão for concluída.

    -------------------------
    Run URL: <URL to the deployment Databricks Job>
    
    <timestamp> "[dev e] [databricks-docs-bot][dev] ingest_data" RUNNING
    <timestamp> "[dev e] [databricks-docs-bot][dev] ingest_data" TERMINATED SUCCESS
    Successfully downloaded and uploaded Databricks documentation articles to UC Volume '`catalog`.`schema`.`raw_databricks_docs`'