enriquecer dados usando AI Functions

AI Functions são funções integradas que podem ser usadas para aplicar LLMs ou técnicas de pesquisa de ponta em dados armazenados no Databricks para transformação e enriquecimento de dados. Podem ser executados a partir de Databricks SQL, notebooks, LakeFlow Pipelines e fluxos de trabalho.

AI Functions são fáceis de usar, rápidas e escaláveis. Analistas podem usá-las para aplicar inteligência de dados aos seus dados proprietários, enquanto engenheiros de dados, data scientists e engenheiros machine learning podem usá-las para construir um pipeline de lotes de nível de produção.

Requisitos

AI Functions não estão disponíveis em SQL warehouse Pro ou Classic.
Notebooks e fluxos de trabalho : compute serverless é necessário. AI Functions não são suportadas em clusters de compute clássico.
Databricks Runtime 18.2 ou acima é necessário.

tarefa específica e de propósito geral

AI Functions possui funções específicas para tarefas e funções de propósito geral:

AI Functionsespecíficas para tarefas — Funções desenvolvidas especificamente para uma tarefa, otimizadas para tal, como análise de documentos, extração de entidades, classificação e análise de sentimentos. Essas funções são alimentadas por sistemas Databricks-gerenciar, baseados em pesquisa. Algumas funções incluem experiências de interface do usuário. Consulte as funções AI específicas da tarefa para obter informações sobre as funções e os modelos compatíveis.
ai_query — A função de propósito geral para flexibilidade de tarefas e modelos. Forneça uma solicitação e escolha qualquer API do Foundation Model compatível. Consulte o uso ai_query.

Árvore de decisão para funções AI específicas da tarefa e AI_query

Para restringir quais Funções de IA específicas da tarefa sua organização pode acessar, consulte Permissões do Unity Catalog para AI Functions.

específico da tarefa AI funções

As funções específicas da tarefa são definidas para uma determinada tarefa, permitindo automatizar transformações rotineiras, como extração de entidades, tradução e classificação. A Databricks recomenda estas funções para começar, pois elas utilizam técnicas de pesquisa de ponta mantidas pela Databricks e não exigem nenhuma personalização.

Consulte Analisar avaliações de clientes usando AI Functions para ver um exemplo.

As funções a seguir estão agrupadas por tarefa.

Processamento inteligente de documentos:

Função	Descrição
ai_parse_document	Analise conteúdo estruturado (texto, tabelas, descrições de figuras) e extraia informações de documentos não estruturados usando técnicas de pesquisa de última geração.
ai_extract	Extraia campos estruturados de documentos ou textos usando um esquema definido por você.
ai_classify	Classifique o texto de entrada de acordo com o rótulo fornecido, utilizando técnicas de pesquisa de ponta.
ai_prep_search (Beta)	Transforme a saída do documento analisado em blocos prontos para pesquisa, otimizados para Pesquisa de AI e pipeline RAG.

Função	Descrição
ai_parse_document	Analise conteúdo estruturado (texto, tabelas, descrições de figuras) e extraia informações de documentos não estruturados usando técnicas de pesquisa de última geração.
ai_extract	Extraia campos estruturados de documentos ou textos usando um esquema definido por você.
ai_classify	Classifique o texto de entrada de acordo com o rótulo fornecido, utilizando técnicas de pesquisa de ponta.
ai_prep_search (Beta)	Transforme a saída do documento analisado em blocos prontos para pesquisa, otimizados para Pesquisa de AI e pipeline RAG.

Transformar texto:

Função	Descrição
ai_fix_grammar	Corrija erros gramaticais em textos usando um modelo gerativo de última geração AI.
ai_translate	Traduza o texto para um idioma de destino especificado usando um modelo gerativo de última geração AI.
ai_summarize	Gere um resumo de texto usando SQL e um modelo AI generativo de última geração.
ai_mask	Mascarar entidades especificadas no texto usando um modelo gerativo de última geração AI.

Função	Descrição
ai_fix_grammar	Corrija erros gramaticais em textos usando um modelo gerativo de última geração AI.
ai_translate	Traduza o texto para um idioma de destino especificado usando um modelo gerativo de última geração AI.
ai_summarize	Gere um resumo de texto usando SQL e um modelo AI generativo de última geração.
ai_mask	Mascarar entidades especificadas no texto usando um modelo gerativo de última geração AI.

Analisar texto:

Função	Descrição
ai_analyze_sentiment	Realizar análise de sentimento no texto de entrada usando um modelo gerativo de última geração AI.
ai_similarity	Compare dois strings e compute a pontuação de similaridade semântica usando um modelo gerativo AI de última geração.

Função	Descrição
ai_analyze_sentiment	Realizar análise de sentimento no texto de entrada usando um modelo gerativo de última geração AI.
ai_similarity	Compare dois strings e compute a pontuação de similaridade semântica usando um modelo gerativo AI de última geração.

Gerar conteúdo. Para prompts personalizados ou um modelo específico, consulte Usar ai_query:

Função	Descrição
ai_gen	Responda a uma pergunta fornecida pelo usuário usando um modelo AI generativa de última geração.

Séries temporais de previsão:

Função	Descrição
IA	Preveja dados até um horizonte especificado. Essa função com valor de tabela foi projetada para extrapolar dados de séries temporais para o futuro.

Analisar alterações de métricas:

Função	Descrição
ai_top_drivers (Beta)	Classifique os valores de dimensão que mais contribuem para uma mudança em uma métrica entre um grupo de controle e um grupo de teste.

Pesquisar com incorporações da Pesquisa de IA:

Função	Descrição
busca vetorial	Pesquise e consulte um índice de Pesquisa de IA usando um modelo de IA generativa de última geração.

Use AI Functions no fluxo de trabalho de produção

Para inferência em lote em grande escala, é possível integrar AI Functions específicas da tarefa ou a função de uso geral ai_query em seus fluxos de trabalho de produção, como Lakeflow pipelines, fluxos de trabalho do Databricks e Structured Streaming. Isso permite processamento de nível de produção em escala.

Melhores práticas para funções AI em produção:

Deixe que AI Functions lidem com sua carga de trabalho em escala: AI Functions gerenciam automaticamente a paralelização, as novas tentativas e o escalonamento. Recomenda-se enviar todo o dataset em uma única consulta, em vez de dividi-lo manualmente em lotes menores. O desempenho pode não aumentar linearmente de cargas de trabalho muito pequenas para cargas de trabalho de grande escala.

Use modelos de base hospedados Databricks : Ao usar a função AI ai_query , use modelos de base hospedados Databricks(prefixados com databricks-), não provisionamento Taxa de transferência. Esses endpoints sem provisionamento são totalmente gerenciáveis e funcionam melhor para processamento em lote.

Consulte o pipeline de inferência de lotes de implante para exemplos e detalhes.

Monitorar o progresso AI Functions

Para entender quantas inferências foram concluídas ou falharam e solucionar problemas de desempenho, você pode monitorar o progresso das AI Functions usando o recurso de perfil de consulta.

Em Databricks Runtime 16.1 ML e acima, na janela de consulta do editor SQL em seu workspace:

Selecione o link Running--- na parte inferior da janela de resultados brutos . A janela de desempenho é exibida à direita.
Clique em See query profile (Ver perfil de consulta ) para view detalhes de desempenho.
Clique em AI Query para ver as métricas dessa consulta específica, incluindo o número de inferências concluídas e com falha e o tempo total que a solicitação levou para ser concluída.

visualizar custos para cargas de trabalho da função AI

Os custos da função AI são registrados como parte do produto MODEL_SERVING sob o tipo de oferta BATCH_INFERENCE . Veja os custos de visualização para cargas de trabalho de inferência de lotes para um exemplo de consulta.

nota

Para ai_parse_document, ai_extract e ai_classify os custos são registrados como parte do produto AI_FUNCTIONS . Veja os custos de visualização para a execução de ai_parse_document para um exemplo de consulta.

ver custos para cargas de trabalho de inferência de lotes

Os exemplos a seguir mostram como filtrar cargas de trabalho de inferência em lotes com base em Job, compute, SQL Warehouse e LakeFlow Pipelines.

Consulte Monitorar custos do modelo de abastecimento para obter exemplos gerais sobre como view custos para suas cargas de trabalho de inferência de lotes que usam AI Functions.

Jobs
Compute
Lakeflow Spark Declarative Pipelines
SQL warehouse

A consulta a seguir mostra quais tarefas estão sendo usadas para inferência de lotes usando a tabela de sistemas system.workflow.jobs . Veja Monitorar custos e desempenho do trabalho com tabelas do sistema.

SQL

SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

A seguir são mostrados quais clusters estão sendo usados para inferência de lotes usando a tabela de sistemas system.compute.clusters .

SQL
SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

A seguir, é mostrado quais LakeFlow Pipelines estão sendo usados para inferência em lote usando a tabela de sistemas system.lakeflow.pipelines.

SQL
SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

A seguir é mostrado qual warehouse SQL está sendo usado para inferência de lotes usando a tabela de sistemas system.compute.warehouses .

SQL
SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

ver custos para execução de `ai_parse_document`

O exemplo a seguir mostra como consultar as tabelas do sistema de faturamento para view os custos da execução de ai_parse_document .

SQL

SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";

Requisitos​

tarefa específica e de propósito geral​

específico da tarefa AI funções​

Use AI Functions no fluxo de trabalho de produção​

Monitorar o progresso AI Functions​

visualizar custos para cargas de trabalho da função AI​

ver custos para cargas de trabalho de inferência de lotes​

ver custos para execução de ai_parse_document​