Migrar o endpoint de atendimento otimizado do LLM para o provisionamento Taxa de transferência
Essa documentação foi descontinuada e pode não estar atualizada. O produto, o serviço ou a tecnologia mencionados neste conteúdo não são mais suportados.
Este artigo descreve como migrar seu endpoint de serviço LLM existente para a experiência de provisionamento Taxa de transferência disponível usando o Foundation Model APIs.
O que está mudando?
O provisionamento da taxa de transferência oferece uma experiência mais simples para o lançamento de um ponto de extremidade de serviço LLM otimizado. Databricks modificou seu sistema LLM servindo modelo para que o senhor possa usar:
- Os intervalos de escala-out podem ser configurados em LLMtermos nativos, como tokens por segundo em vez de simultaneidade.
- Os clientes não precisam mais selecionar os tipos de carga de trabalho da GPU sozinhos.
Novos endpoints de atendimento LLM são criados com o provisionamento Taxa de transferência por default. Se o senhor quiser continuar selecionando o tipo de carga de trabalho da GPU, essa experiência só é compatível com o uso da API.
Migrar LLM servindo endpoint para provisionamento Taxa de transferência
A maneira mais simples de migrar o site endpoint existente para o provisionamento Taxa de transferência é atualizar o site endpoint com uma nova versão do modelo. Depois que o senhor seleciona uma nova versão do modelo, a interface do usuário exibe a experiência para provisionamento da taxa de transferência. A interface do usuário mostra os intervalos de tokens por segundo com base no benchmarking da Databricks para casos de uso típicos.
O desempenho com essa oferta atualizada é estritamente melhor devido aos aprimoramentos de otimização, e o preço do seu endpoint permanece inalterado. Entre em contato com model-serving-feedback@databricks.com
para obter feedback sobre o produto ou para esclarecer dúvidas.