APIs do modelo do Databricks Foundation
Este artigo fornece uma visão geral das APIs do Foundation Model em Databricks. Inclui requisitos de uso, modelos suportados e limitações.
O que são APIs do modelo Databricks Foundation?
O modelo de operação do Databricks agora oferece suporte a APIs de modelo básico que permitem acessar e query modelos abertos de última geração a partir de um endpoint de serviço. Com as APIs do Foundation Model, você pode criar aplicativos de forma rápida e fácil que aproveitam um modelo de IA generativo de alta qualidade sem manter a implantação do seu próprio modelo.
As APIs do Foundation Model são fornecidas em duas modalidades de preços:
Pagamento por tokens: Essa é a maneira mais fácil de começar a acessar os modelos de fundação em Databricks e é recomendada para iniciar sua jornada com o Modelo de Fundação APIs. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.
provisionamento Taxa de transferência: Esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou requisitos de segurança adicionais. O provisionamento do endpoint da Taxa de transferência está disponível com as certificações compliance, como HIPAA.
Consulte Usar APIs do Modelo Básico para obter orientação sobre como usar esses dois modos e os modelos com suporte.
Usando as APIs do Foundation Model, o senhor pode:
query um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.
query um LLM generalizado para criar uma rápida prova de conceito para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo customizado.
Use um modelo básico, juntamente com um banco de dados vetorial, para construir um chatbot usando geração aumentada de recuperação (RAG).
Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.
Compare LLMs com eficiência para ver qual é o melhor candidato para seu caso de uso ou swap um modelo de produção por um de melhor desempenho.
Crie um aplicativo LLM para desenvolvimento ou produção com base em um LLM escalonável e apoiado por SLA que serve soluções que podem suportar seus picos de tráfego de produção.
Requisitos
tokens de API do Databricks para autenticar solicitações de endpoint.
serverless compute (para modelos de provisionamento de taxa de transferência).
Um workspace em uma região com suporte:
Observação
Para cargas de trabalho de taxa de transferência de provisionamento que usam o modelo DBRX Base, consulte Modelo Foundation APIs limites para disponibilidade de região.
Use APIs do modelo básico
O senhor tem várias opções para usar as APIs do Foundation Model.
As APIs são compatíveis com o OpenAI, portanto, o senhor pode até mesmo usar o cliente OpenAI para fazer consultas. O senhor também pode usar a interface do usuário, o SDK Python das APIs do Foundation Models, o SDK do MLflow Deployments ou a API REST para consultar os modelos compatíveis. A Databricks recomenda usar o MLflow Deployments SDK ou a API REST para interações estendidas e a interface do usuário para experimentar o recurso.
Consulte Modelos de base de consulta para obter exemplos de pontuação.
APIs do modelo básico de pagamento portokens
Visualização
Esse recurso está em visualização pública.
Os modelos pay-per-tokens estão disponíveis em seu site Databricks workspace, e são recomendados para começar. Para acessá-los em seu site workspace, navegue até Serving tab na barra lateral esquerda. O Foundation Model APIs está localizado na parte superior da lista de endpoints view.
A tabela a seguir resume os modelos suportados para pay-per-tokens. Consulte Modelos suportados para pay-per-tokens para obter informações adicionais sobre o modelo.
Se quiser testar e conversar com esses modelos, o senhor pode fazer isso usando o AI Playground. Consulte Bate-papo com LLMs compatíveis usando o AI Playground.
Modelo |
Tipo de tarefa |
Endpoint |
---|---|---|
Instrução DBRX |
Bater papo |
|
Meta-Llama-3-70B-Instruct |
Bater papo |
|
Meta-Llama-2-70B-Chat |
Bater papo |
|
Instrução Mixtral-8x7B |
Bater papo |
|
Instrução MPT 7B |
Conclusão |
|
Instrução MPT 30B |
Conclusão |
|
BGE Grande (Inglês) |
Incorporação |
|
Consulte Consultar modelos da fundação para obter orientação sobre como consultar as APIs do modelo da fundação.
Consulte a referência da API REST do modelo Foundation para obter os parâmetros e a sintaxe necessários.
provisionamento Taxa de transferência Foundation Model APIs
O provisionamento Taxa de transferência está geralmente disponível e o site Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. O provisionamento Taxa de transferência fornece ao endpoint uma inferência otimizada para cargas de trabalho do modelo de fundação que exigem garantias de desempenho. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter um guia passo a passo sobre como implantar o Foundation Model APIs no provisionamento em todo o modo.
O apoio ao provisionamento Taxa de transferência inclui:
Modelos básicos de todos os tamanhos, como o DBRX Base. Os modelos básicos podem ser acessados usando o Databricks Marketplace download Hugging Face site ou, alternativamente, o Unity Catalog senhor pode acessá-los em ou em outra fonte externa e registrá-los no site . A última abordagem funciona com qualquer variante de ajuste fino dos modelos suportados, independentemente do método de ajuste fino empregado.
Variantes ajustadas de modelos básicos, como LlamaGuard-7B. Isso inclui modelos ajustados com base em dados proprietários.
Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados continuamente ou outras variações usando a arquitetura do modelo básico (como CodeLlama, Yi-34B-Chat ou SOLAR-10.7B).
A tabela a seguir resume as arquiteturas de modelo suportadas para provisionamento Taxa de transferência.
Arquitetura do modelo |
tipos de tarefa |
Notas |
---|---|---|
DBRX |
Bate-papo ou conclusão |
Consulte os limites das APIs do Foundation Model para obter a disponibilidade da região. |
Meta Llama 3 |
Bate-papo ou conclusão |
|
Meta Llama 2 |
Bate-papo ou conclusão |
|
Mistral |
Bate-papo ou conclusão |
|
Mixtral |
Bate-papo ou conclusão |
|
MPT |
Bate-papo ou conclusão |
|
BGE v1.5 (Inglês) |
Incorporação |