modelos implantados para inferência e predição de lotes
Este artigo descreve o que o site Databricks recomenda para a inferência de lotes e transmissão.
Para o tempo real servindo modelo em Databricks, consulte servindo modelo com Databricks.
Use ai_query para inferência de lotes
Prévia
Esse recurso está em Pré-lançamento público.
Databricks recomenda o uso de ai_query
com servindo modelo para inferência de lotes. ai_query
é uma função integrada Databricks SQL que permite que o senhor consulte o endpoint do modelo de serviço existente usando SQL. Foi verificado que ele processa de forma confiável e consistente um conjunto de dados na faixa de bilhões de tokens. Consulte a funçãoai_query para obter mais detalhes sobre essa função AI.
Para uma rápida experimentação, ai_query
pode ser usado com o endpoint pay-per-tokens, já que esse endpoint está pré-configurado em seu site workspace.
Quando o senhor estiver pronto para executar lotes de inferência em dados grandes ou de produção, o site Databricks recomenda o uso do endpoint de provisionamento Taxa de transferência para um desempenho mais rápido. Consulte o provisionamento Taxa de transferência Foundation Model APIs para criar um provisionamento Taxa de transferência endpoint.
Para começar a fazer inferência de lotes com LLMs nas tabelas Unity Catalog, consulte os exemplos do Notebook em inferência de lotes usando o Foundation Model APIs provisionamento Taxa de transferência.