Use Agent Bricks: extração de informações

info

Beta

Esse recurso está na versão beta.

Este artigo descreve como criar um agente generativo AI para extração de informações usando o Agent Bricks: Information Extraction.

O Agent Bricks oferece uma abordagem simples e sem código para criar e otimizar sistemas de agentes AI de alta qualidade e específicos do domínio para casos de uso comuns do AI.

O que é o Agent Bricks: information Extraction?

O Agent Bricks oferece suporte à extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto não rotulados em uma tabela estruturada com informações extraídas para cada documento.

Exemplos de extração de informações incluem:

Extração de preços e informações de arrendamento de contratos.
Organizar dados a partir de notas de clientes.
Obter detalhes importantes de artigos de notícias.

O Agent Bricks: information Extraction aproveita os recursos de avaliação automatizada, incluindo MLflow e Agent Evaluation, para permitir uma avaliação rápida da relação custo-qualidade para sua tarefa de extração específica. Essa avaliação permite que o senhor tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.

Requisitos

Um workspace que inclui o seguinte:
- Mosaic AI Agent Bricks Preview (Beta) ativado. Veja gerenciar Databricks Previews.
- sem servidor compute ativado. Consulte Ativar serverless compute .
- Unity Catalog habilitado. Consulte Ativar um workspace para Unity Catalog.
- Um workspace em uma das regiões compatíveis: us-east-1 ou us-west-2.
- Acesso a modelos básicos no Unity Catalog por meio do esquema system.ai.
- Acesso a uma política orçamentáriaserverless com um orçamento diferente de zero.
Capacidade de usar a funçãoai_query SQL.
Arquivos dos quais o senhor deseja extrair dados. Os arquivos devem estar em um volume ou tabela do Unity Catalog.
- Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.
- Para criar seu agente, o senhor precisa de pelo menos 1 documento não rotulado no volume do Unity Catalog ou 1 linha na tabela.
- Para otimizar o agente ((Opcional) Etapa 4: Revisar e implantar um agente otimizado), o senhor deve ter pelo menos 75 documentos não rotulados no volume Unity Catalog ou pelo menos 75 linhas na tabela.

Criar um agente de extração de informações

Acesse Agents no painel de navegação esquerdo do site workspace e clique em information Extraction (Extração de informações) .

Agent Bricks: extração de informações

Etapa 1: Adicionar dados de entrada e exemplo de saída

Em Configure (Configurar ) tab, clique em Show an example (Mostrar um exemplo ) > para expandir um exemplo de entrada e resposta do modelo para um agente de extração de informações.

No painel abaixo, configure seu agente:

No campo Source documents (Documentos de origem ), selecione a pasta ou tabela que o senhor deseja usar no volume do Unity Catalog. Se o senhor selecionou uma tabela, selecione a coluna que contém os dados de texto no site dropdown.

A pasta deve conter documentos em um formato de documento compatível e a coluna da tabela deve conter dados em um formato de dados compatível. Esse endereço dataset é usado para criar seu agente.

Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.

Veja a seguir um exemplo de volume:

/Volumes/main/info-extraction/bbc_articles/

No campo Exemplo de saída , forneça um exemplo de resposta:

JSON
{
  "title": "Economy Slides to Recession",
  "category": "Politics",
  "paragraphs": [
    {
      "summary": "GDP fell by 0.1% in the last three months of 2004.",
      "word_count": 38
    },
    {
      "summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
      "word_count": 42
    }
  ],
  "tags": ["Recession", "Economy", "Consumer Spending"],
  "estimate_time_to_read_min": 1,
  "published_date": "2005-01-15",
  "needs_review": false
}

Forneça um nome para seu agente. O senhor pode deixar o nome default se não quiser alterá-lo.
Selecione Criar agente .

Formatos de documentos suportados

A tabela a seguir mostra os tipos de arquivos de documentos suportados para seus documentos de origem se o senhor fornecer um volume do Unity Catalog.

Arquivos de código	Arquivos de documentos	arquivos de registro
`.c` `.cc` `.cpp` `.cs` `.css` `.cxx` `.go` `.h` `.hpp` `.htm` `.html` `.java` `.js` `.json` `.jsonl` `.jsx` `.lua` `.md` `.php` `.pl` `.py` `.rb` `.sh` `.swift` `.tex` `.ts` `.tsx`	`.md` `.rst` `.tex` `.txt` `.xml` `.xsd` `.xsl`	`.diff` `.err` `.log` `.out` `.patch`

Formatos de dados suportados

Agent Bricks: a extração de informações é compatível com os seguintes tipos de dados e esquemas para os documentos de origem se o senhor fornecer uma tabela Unity Catalog. O Agent Bricks também pode extrair esses tipos de dados de cada documento.

str
int
float
boolean
Campos aninhados personalizados
Matrizes dos tipos de dados acima

Etapa 2: Crie e melhore seu agente

No site Build tab, no painel Agent configuration (Configuração do agente ), refine a definição do esquema para obter melhores resultados.

(Opcional) Adicione instruções globais para seu agente, como uma solicitação que possa ser aplicada a todos os campos.
Ajuste as descrições dos campos do esquema que você deseja que seu agente use para respostas de saída. Essas descrições são as que o agente usa para entender o que você deseja extrair.
Clique em Atualizar agente .

No lado esquerdo da página Build tab, veja as recomendações e exemplos de resultados.

Analise os exemplos de saída do modelo com base nas especificações fornecidas para cada campo.
Analise as recomendações da Databricks para otimizar o desempenho do agente.
Aplique recomendações e ajuste suas descrições e instruções no painel de configuração do agente conforme necessário.
Depois de aplicar as alterações e recomendações, selecione Atualizar agente para salvar essas alterações em seu agente. O painel Melhore seu agente é atualizado para mostrar um novo exemplo de saída de modelo. As recomendações nesse painel não são atualizadas.

Agora o senhor tem um agente para extração de informações.

Etapa 3: use seu agente

O senhor pode usar seu agente em fluxo de trabalho em Databricks.

Em Use tab,

Selecione começar extraction para abrir o editor SQL e use ai_query para enviar solicitações ao seu novo agente de extração de informações.
(Opcional) Selecione Otimizar se quiser otimizar o custo do seu agente.
- A otimização requer pelo menos 75 arquivos.
- A otimização pode levar cerca de uma hora.
- Fazer alterações em seu agente atualmente ativo é bloqueado quando a otimização está em andamento.

Quando a otimização for concluída, o senhor será direcionado para o site Review tab para view uma comparação entre o agente atualmente ativo e um agente otimizado para custo. Consulte (Opcional) Etapa 4: Revisar e implantar um agente otimizado.

(Opcional) Selecione Create pipeline para implantar um pipeline que será executado em intervalos programados para usar seu agente em novos dados. Consulte LakeFlow Declarative pipeline para obter mais informações sobre o pipeline.

extração de dados para todos os documentos e o bloco Otimizar o desempenho do agente no site Use tab da ABIE

(Opcional) Etapa 4: Revisar e implantar um agente otimizado

Quando o senhor seleciona Optimize em Use tab, Databricks compara várias estratégias de otimização diferentes para criar e recomendar um agente otimizado. Essas estratégias incluem o ajuste fino do Foundation Model, que usa o Databricks Geos.

No site Review tab,

Nos resultados da avaliação , você pode comparar visualmente o agente otimizado e seu agente ativo. Para realizar a avaliação, o site Databricks escolhe uma métrica com base no tipo de dados de cada campo e usa um conjunto de dados de avaliação para comparar seu agente ativo e o agente otimizado para custo. Esse conjunto de avaliação é baseado em um subconjunto dos dados que você usou para criar seu agente original.
1. métricas são registros para sua MLflow execução por campo (agregados ao campo de nível superior).
2. Selecione as colunas overall_score e is_schema_match no menu suspenso Colunas .
Depois de analisar esses resultados, clique em implantado se quiser implantar esse agente otimizado em vez do agente ativo no momento.

Use PDFs no Agent Bricks

Os PDFs ainda não são suportados nativamente no Agent Bricks: information Extraction e Custom LLM. No entanto, o senhor pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela resultante do Unity Catalog como entrada ao criar seu agente. Esse fluxo de trabalho usa ai_parse_document para a conversão. Siga estas etapas:

Clique em Agents no painel de navegação esquerdo para abrir o Agent Bricks no Databricks.
No canto superior direito, clique em Usar PDFs no Agent Bricks .
No painel que se abre, insira os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:
1. Selecione a pasta com os PDFs : Selecione a pasta do Unity Catalog que contém os PDFs que o senhor deseja usar.
2. Selecione a tabela de destino : Selecione o esquema de destino para a tabela de remarcação para baixo convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
3. Select active SQL warehouse : Selecione o site SQL warehouse para executar o fluxo de trabalho.
Clique em começar a importar .
O senhor será redirecionado para o All fluxo de trabalho tab, que lista todos os seus fluxos de trabalho em PDF. Use o site tab para monitorar o status do seu trabalho.

Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e view mensagens de erro para ajudá-lo a depurar.
Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Catalog Explorer e explorar e entender as colunas.
Use a tabela do Unity Catalog como dados de entrada no Agent Bricks ao configurar seu agente.

Limitações

A Databricks exige pelo menos 75 documentos para otimizar seu agente. Para obter melhores resultados de otimização, recomenda-se pelo menos 1000 documentos. Quando você adiciona mais documentos, a base de conhecimento com a qual o agente pode aprender aumenta, o que melhora a qualidade do agente e sua precisão de extração.
Se seus documentos de origem incluírem um arquivo maior que 3 MB, a criação do agente falhará.
Documentos maiores que 64 KB podem ser ignorados durante a criação do agente.
O limite de entrada e saída é de 128 mil tokens.
que usam o PrivateLink, incluindo o armazenamento por trás do PrivateLink, não são suportados.
Não há suporte para tipos de esquema de união.

O que é o Agent Bricks: information Extraction?​

Requisitos​

Criar um agente de extração de informações​

Etapa 1: Adicionar dados de entrada e exemplo de saída​

Formatos de documentos suportados​

Formatos de dados suportados​

Etapa 2: Crie e melhore seu agente​

Etapa 3: use seu agente​

(Opcional) Etapa 4: Revisar e implantar um agente otimizado​

Use PDFs no Agent Bricks​

Limitações​