Migrar endpoint de serviço LLM otimizado para provisionamento Taxa de transferência
Este artigo descreve como migrar seu endpoint de serviço LLM existente para a experiência de provisionamento Taxa de transferência disponível usando APIs do Foundation Model.
O que está mudando?
o provisionamento Taxa de transferência fornece uma experiência mais simples para lançar endpoint de serviço LLM otimizado. Databricks modificou seu sistema de modelo LLM usuario para que:
os intervalos de escalonamento podem ser configurados em termos nativos do LLM, como tokens por segundo em vez de simultaneidade.
Os clientes não precisam mais selecionar eles próprios os tipos de carga de trabalho da GPU.
Novos endpoint de serviço LLM são criados com provisionamento Taxa de transferência por default. Se você quiser continuar selecionando o tipo de carga de trabalho da GPU, essa experiência só terá suporte usando a API.
Migrar endpoint de serviço LLM para provisionamento Taxa de transferência
A maneira mais simples de migrar seu endpoint existente para provisionamento Taxa de transferência é atualizar seu endpoint com uma nova versão do modelo. Depois de selecionar uma nova versão do modelo, a UI exibe a experiência de provisionamento Taxa de transferência. A UI mostra intervalos de tokens por segundo com base no benchmarking do Databricks para casos de uso típicos.
O desempenho com esta oferta atualizada é estritamente melhor devido às melhorias de otimização, e o preço do seu endpoint permanece inalterado. Entre em contato com model-serving-feedback@databricks.com
para comentários ou dúvidas sobre o produto.