Use Agent Bricks: extração de informações
Beta
Esse recurso está na versão beta.
Este artigo descreve como criar um agente generativo AI para extração de informações usando o Agent Bricks: Information Extraction.
O Agent Bricks oferece uma abordagem simples para construir e otimizar sistemas de agentes de inteligência artificial ( AI ) específicos para cada domínio e de alta qualidade para casos de uso comuns de inteligência artificial ( AI ).
O que é o Agent Bricks: information Extraction?
O Agent Bricks oferece suporte à extração de informações e simplifica o processo de transformação de um grande volume de documentos de texto não rotulados em uma tabela estruturada com informações extraídas para cada documento.
Exemplos de extração de informações incluem:
- Extração de preços e informações de arrendamento de contratos.
- Organizar dados a partir de notas de clientes.
- Obter detalhes importantes de artigos de notícias.
O Agent Bricks: information Extraction aproveita os recursos de avaliação automatizada, incluindo MLflow e Agent Evaluation, para permitir uma avaliação rápida da relação custo-qualidade para sua tarefa de extração específica. Essa avaliação permite que o senhor tome decisões informadas sobre o equilíbrio entre precisão e investimento em recursos.
Requisitos
-
Um workspace que inclui o seguinte:
- Mosaic AI Agent Bricks Preview (Beta) ativado. Veja gerenciar Databricks Previews.
- sem servidor compute ativado. Consulte os requisitos do compute sem servidor.
- Unity Catalog habilitado. Consulte Ativar um workspace para Unity Catalog.
- Acesso a modelos básicos no Unity Catalog por meio do esquema
system.ai
. - Acesso a uma política orçamentáriaserverless com um orçamento diferente de zero.
-
Um workspace em uma das regiões compatíveis:
us-east-1
ouus-west-2
. -
Capacidade de usar a função
ai_query
SQL. -
Arquivos dos quais o senhor deseja extrair dados. Os arquivos devem estar em um volume ou tabela do Unity Catalog.
- Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.
- Para criar seu agente, o senhor precisa de pelo menos 1 documento não rotulado no volume do Unity Catalog ou 1 linha na tabela.
- Para otimizar o agente ((Opcional) Etapa 4: Revisar e implantar um agente otimizado), o senhor deve ter pelo menos 75 documentos não rotulados no volume Unity Catalog ou pelo menos 75 linhas na tabela.
Criar um agente de extração de informações
Acesse Agents no painel de navegação esquerdo do site workspace e clique em information Extraction (Extração de informações) .
Etapa 1: configurar seu agente
Em Configure (Configurar ) tab, clique em Show an example (Mostrar um exemplo ) > para expandir um exemplo de entrada e resposta do modelo para um agente de extração de informações.
No painel abaixo, configure seu agente:
-
No campo Nome , insira um nome para seu agente.
-
Selecione o tipo de dados que você deseja fornecer. O senhor pode escolher entre Unlabeled dataset (conjunto de dados sem rótulo ) ou Labeled dataset (conjunto de dados com rótulo ).
-
Selecione o endereço dataset para fornecer.
- Unlabeled dataset
- Labeled dataset
Se você selecionar Sem rótulo dataset :
-
No campo de localização do conjunto de dados , selecione a pasta ou tabela que deseja usar no volume Unity Catalog. Se você selecionar uma pasta, ela deverá conter documentos em um formato de documento compatível.
-
Se o senhor estiver fornecendo uma tabela, selecione a coluna que contém os dados de texto no site dropdown. A coluna da tabela deve conter dados em um formato de dados compatível.
Se o senhor quiser usar PDFs, primeiro converta-os em uma tabela do Unity Catalog. Consulte Usar PDFs no Agent Bricks.
Veja a seguir um exemplo de volume:
/Volumes/main/info-extraction/bbc_articles/
Se você selecionar rótulo dataset :
-
No campo rótulo treinamento dataset , selecione a tabela Unity Catalog que o senhor deseja usar.
-
No campo Coluna de entrada , selecione a coluna que contém o texto que você deseja que o agente processe. Os dados nessa coluna devem estar no formato
str
. -
No campo da coluna de resposta do rótulo , selecione a coluna que contém a resposta do rótulo que o senhor deseja que o agente gere. Os dados dessa coluna devem ser uma cadeia de caracteres JSON. Cada linha dessa coluna deve seguir o mesmo formato JSON. As linhas que contêm chaves adicionais ou ausentes não são aceitáveis.
Ao otimizar, o Agent Bricks usa os dados do rótulo para melhorar a qualidade da extração de informações endpoint.
-
Se o senhor forneceu um dataset não rotulado, o Agent Bricks automaticamente infere e gera uma saída de amostra JSON contendo dados extraídos do seu dataset no campo de saída Sample JSON . O senhor pode aceitar a saída de amostra, editá-la ou substituí-la por um exemplo da saída JSON desejada. O agente retorna as informações extraídas usando esse formato.
Se o senhor forneceu um rótulo dataset, o campo de saída Sample JSON mostra a primeira linha de dados da coluna de resposta do rótulo. Verifique se essa saída JSON corresponde ao formato esperado.
Por exemplo, o seguinte exemplo de saída JSON pode ser usado para extrair informações de um conjunto de artigos de notícias:
JSON{
"title": "Economy Slides to Recession",
"category": "Politics",
"paragraphs": [
{
"summary": "GDP fell by 0.1% in the last three months of 2004.",
"word_count": 38
},
{
"summary": "Consumer spending had been depressed by one-off factors such as the unseasonably mild winter.",
"word_count": 42
}
],
"tags": ["Recession", "Economy", "Consumer Spending"],
"estimate_time_to_read_min": 1,
"published_date": "2005-01-15",
"needs_review": false
} -
Clique em Criar agente .
Formatos de documentos suportados
A tabela a seguir mostra os tipos de arquivos de documentos suportados para seus documentos de origem se o senhor fornecer um volume do Unity Catalog.
Arquivos de código | Arquivos de documentos | arquivos de registro |
---|---|---|
|
|
|
Formatos de dados suportados
Agent Bricks: a extração de informações é compatível com os seguintes tipos de dados e esquemas para os documentos de origem se o senhor fornecer uma tabela Unity Catalog. O Agent Bricks também pode extrair esses tipos de dados de cada documento.
str
int
float
boolean
- Campos aninhados personalizados
- Matrizes dos tipos de dados acima
Etapa 2: Crie e melhore seu agente
No site Build tab, no painel Agent configuration (Configuração do agente ), refine a definição do esquema para obter melhores resultados.
-
(Opcional) Adicione instruções globais para seu agente, como uma solicitação que possa ser aplicada a todos os campos.
-
Ajuste as descrições dos campos do esquema que você deseja que seu agente use para respostas de saída. Essas descrições são as que o agente usa para entender o que você deseja extrair.
-
Clique em Atualizar agente .
No lado esquerdo da página Build tab, veja as recomendações e exemplos de resultados.
-
Analise os exemplos de saída do modelo com base nas especificações fornecidas para cada campo.
-
Analise as recomendações da Databricks para otimizar o desempenho do agente.
-
Aplique recomendações e ajuste suas descrições e instruções no painel de configuração do agente conforme necessário.
-
Depois de aplicar as alterações e recomendações, selecione Atualizar agente para salvar essas alterações em seu agente. O painel Melhore seu agente é atualizado para mostrar um novo exemplo de saída de modelo. As recomendações nesse painel não são atualizadas.
Agora o senhor tem um agente para extração de informações.
Etapa 3: use seu agente
O senhor pode usar seu agente em fluxo de trabalho em Databricks. Em default, o ponto de extremidade do Agent Bricks é zerado após 3 dias de inatividade, portanto, o senhor só será cobrado pelo tempo de atividade.
Em Use tab,
-
Selecione começar extraction para abrir o editor SQL e use
ai_query
para enviar solicitações ao seu novo agente de extração de informações. -
(Opcional) Selecione Otimizar se quiser otimizar o custo do seu agente.
- A otimização requer pelo menos 75 arquivos.
- A otimização pode levar cerca de uma hora.
- Fazer alterações em seu agente atualmente ativo é bloqueado quando a otimização está em andamento.
Quando a otimização for concluída, o senhor será direcionado para o site Review tab para view uma comparação entre o agente atualmente ativo e um agente otimizado para custo. Consulte (Opcional) Etapa 4: Revisar e implantar um agente otimizado.
- (Opcional) Selecione Create pipeline para implantar um pipeline que será executado em intervalos programados para usar seu agente em novos dados. Consulte LakeFlow Declarative pipeline para obter mais informações sobre o pipeline.
(Opcional) Etapa 4: Revisar e implantar um agente otimizado
Quando o senhor seleciona Optimize em Use tab, Databricks compara várias estratégias de otimização diferentes para criar e recomendar um agente otimizado. Essas estratégias incluem o ajuste fino do Foundation Model, que usa o Databricks Geos.
No site Review tab,
-
Nos resultados da avaliação , você pode comparar visualmente o agente otimizado e seu agente ativo. Para realizar a avaliação, o site Databricks escolhe uma métrica com base no tipo de dados de cada campo e usa um conjunto de dados de avaliação para comparar seu agente ativo e o agente otimizado para custo. Esse conjunto de avaliação é baseado em um subconjunto dos dados que você usou para criar seu agente original.
- métricas são registros para sua MLflow execução por campo (agregados ao campo de nível superior).
- Selecione as colunas
overall_score
eis_schema_match
no menu suspenso Colunas .
-
Depois de analisar esses resultados, clique em implantado se quiser implantar esse agente otimizado em vez do agente ativo no momento.
Consultar o agente endpoint
Há várias maneiras de consultar o assistente de conhecimento criado endpoint. Use os exemplos de código fornecidos no AI Playground como ponto de partida.
- No site Configure tab, clique em Open in playground (Abrir no playground ).
- No Playground, clique em Obter código .
- Escolha como o senhor deseja usar o endpoint:
- Selecione Aplicar nos dados para criar uma consulta SQL que aplique o agente a uma coluna específica da tabela.
- Selecione Curl API para obter um exemplo de código para consultar o endpoint usando curl.
- Selecione Python API para obter um exemplo de código para interagir com o endpoint usando Python.
Use PDFs no Agent Bricks
Os PDFs ainda não são suportados nativamente no Agent Bricks: information Extraction e Custom LLM. No entanto, o senhor pode usar o fluxo de trabalho da interface do usuário do Agent Brick para converter uma pasta de arquivos PDF em markdown e, em seguida, usar a tabela resultante do Unity Catalog como entrada ao criar seu agente. Esse fluxo de trabalho usa ai_parse_document
para a conversão. Siga estas etapas:
-
Clique em Agents no painel de navegação esquerdo para abrir o Agent Bricks no Databricks.
-
Nos casos de uso Extração de informações ou Personalizado ( LLM ), clique em Usar PDFs .
-
No painel lateral que se abre, preencha os seguintes campos para criar um novo fluxo de trabalho para converter seus PDFs:
- Selecione a pasta com os PDFs : Selecione a pasta do Unity Catalog que contém os PDFs que o senhor deseja usar.
- Selecione a tabela de destino : Selecione o esquema de destino para a tabela de remarcação para baixo convertida e, opcionalmente, ajuste o nome da tabela no campo abaixo.
- Select active SQL warehouse : Selecione o site SQL warehouse para executar o fluxo de trabalho.
-
Clique em começar a importar .
-
O senhor será redirecionado para o All fluxo de trabalho tab, que lista todos os seus fluxos de trabalho em PDF. Use o site tab para monitorar o status do seu trabalho.
Se o fluxo de trabalho falhar, clique no nome do trabalho para abri-lo e view mensagens de erro para ajudá-lo a depurar.
-
Quando o fluxo de trabalho for concluído com êxito, clique no nome do trabalho para abrir a tabela no Catalog Explorer e explorar e entender as colunas.
-
Use a tabela do Unity Catalog como dados de entrada no Agent Bricks ao configurar seu agente.
Limitações
- A Databricks exige pelo menos 75 documentos para otimizar seu agente. Para obter melhores resultados de otimização, recomenda-se pelo menos 1000 documentos. Quando você adiciona mais documentos, a base de conhecimento com a qual o agente pode aprender aumenta, o que melhora a qualidade do agente e sua precisão de extração.
- informação Os agentes de extração possuem um comprimento máximo de contexto de 128k tokens.
- Os espaços de trabalho que possuem Segurança Avançada e conformidade ativadas não são suportados.
- A otimização pode falhar em espaços de trabalho que tenham políticas de rede de controle de saídaserverless com modo de acesso restrito.
- Não há suporte para tipos de esquema de união.