APIs do Foundation Model do Databricks

Este artigo fornece uma visão geral das APIs do Foundation Model na Databricks. Ele inclui requisitos de uso, modelos compatíveis e limitações.

O que são as APIs de Foundation Model do Databricks?

O Mosaic AI Model Serving agora é compatível com as APIs do Foundation Model, que permitem que o senhor acesse e consulte modelos abertos de última geração a partir de um endpoint de serviço. Com o Foundation Model APIs, o senhor pode criar aplicativos de forma rápida e fácil que aproveitam um modelo generativo de alta qualidade AI sem manter sua própria implantação de modelo. O Foundation Model APIs é um serviço designado pela Databricks, o que significa que ele usa o Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.

As APIs do Foundation Model são fornecidas em dois modelos de preços:

  • Pay-per-token: essa é a maneira mais fácil de começar a acessar os modelos básicos no Databricks e é recomendada para iniciar sua jornada com as APIs dos modelos básicos. Esse modo não foi projetado para aplicações de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.

  • Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos com ajuste fino ou que têm requisitos de segurança adicionais. Os endpoints da taxa de transferência provisionada estão disponíveis com certificações de compliance, como HIPAA.

Consulte Usar APIs do Modelo Básico para obter diretrizes sobre como usar esses dois modos e os modelos com suporte.

Usando as APIs dos modelos básicos, você pode:

  • Consulte um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.

  • Consulte um LLM generalizado para criar rapidamente uma prova de conceito para uma aplicação baseada em LLM antes de investir no treinamento e implantação de um modelo personalizado.

  • Use um foundation model, junto com um banco de dados vetorial, para construir um chatbot usando geração aumentada por recuperação (RAG).

  • Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.

  • Compare LLMs de forma eficiente para ver qual é o melhor candidato para seu caso de uso ou troque um modelo de produção por um com melhor desempenho.

  • Construa um aplicativo LLM para desenvolvimento ou produção em cima de uma solução de serviço LLM escalável e com SLA garantido que possa suportar seus picos de tráfego de produção.

Requisitos

Use as APIs do Foundation Model

Você tem várias opções para usar as APIs do modelo básico.

As APIs são compatíveis com o OpenAI, portanto, o senhor pode usar o cliente OpenAI para fazer consultas. O senhor também pode usar a interface do usuário, o SDK Python das APIs do Foundation Models, o SDK do MLflow Deployments ou a API REST para consultar os modelos compatíveis. A Databricks recomenda usar o SDK ou a API do cliente OpenAI para interações estendidas e a interface do usuário para experimentar o recurso.

Consulte Modelos generativos de consulta AI para obter exemplos de pontuação.

APIs do Foundation Model pay-per-token

Modelos de pagamento por token são acessíveis em seu workspace Databricks e são recomendados para começar. Para acessá-los em seu workspace, navegue até a tab Disponibilização na barra lateral esquerda. As APIs de Modelo de Fundação estão localizadas no topo da visualização de lista de Endpoints.

Lista de endpoints de disponibilização

A tabela a seguir resume os modelos compatíveis com pagamento por token. Consulte Modelos compatíveis com pagamento por token para obter informações adicionais sobre o modelo.

Se quiser testar e conversar com esses modelos, o senhor pode fazer isso usando o AI Playground. Veja Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.

Importante

  • A partir de 11 de dezembro de 2024, Meta-Llama-3.3-70B-Instruct Substitui o suporte para Meta-Llama-3.1-70B-Instruct no modelo Foundation APIs pay-per-tokens endpoint.

  • Os modelos a seguir estão agora retirados. Consulte Modelos retirados para ver os modelos de substituição recomendados.

    • Lhama 2 70B Bate-papo

    • Instrução MPT 7B

    • Instrução MPT 30B

Modelo

Tipo de tarefa

Endpoint

Notas

GTE Large (inglês)

Incorporação

databricks-gte-large-en

Não gera incorporações normalizadas.

Meta-Llama-3.3-70B-Instruct

Bate-papo

databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.1-405B-Instruct *

Bate-papo

databricks-meta-llama-3-1-405b-instruct

Consulte os limites das APIs do modelo básico para ver a disponibilidade da região.

DBRX Instruct

Bate-papo

databricks-dbrx-instruct

Consulte os limites das APIs do modelo básico para ver a disponibilidade da região.

Instrução Mixtral-8x7B

Bate-papo

databricks-mixtral-8x7b-instruct

Consulte os limites das APIs do modelo básico para ver a disponibilidade da região.

BGE Large (inglês)

Incorporação

databricks-bge-large-en

Consulte os limites das APIs do modelo básico para ver a disponibilidade da região.

* Entre em contato com a equipe do Databricks account se o senhor encontrar falhas no endpoint ou erros de estabilização ao usar esse modelo.

APIs do Foundation Model de taxa de transferência provisionada

O provisionamento Taxa de transferência fornece ao endpoint uma inferência otimizada para cargas de trabalho do modelo de fundação que exigem garantias de desempenho. Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter um guia passo a passo sobre como implantar o Foundation Model APIs no provisionamento em todo o modo.

O suporte da taxa de transferência provisionada inclui:

  • Modelos básicos de todos os tamanhos, como o DBRX Base. Os modelos básicos podem ser acessados usando o Databricks Marketplace, ou então você pode baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Unity Catalog. A última abordagem funciona com qualquer variante com ajuste fino dos modelos compatíveis, independentemente do método de ajuste fino empregado.

  • Variantes ajustadas dos modelos básicos, como Llamaguard-7B ou meta-llama/Llama-3.1-8B. Isso inclui modelos que são ajustados com precisão em dados proprietários.

  • Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados contínuos ou outras variações usando a arquitetura do modelo básico (como o CodelLama ).

A tabela a seguir resume as arquiteturas de modelo suportadas para a taxa de transferência provisionada.

Importante

Consulte os limites da Taxa de transferência de provisionamento para saber quais variantes do modelo Meta Llama são suportadas e sua disponibilidade na região.

O Meta Llama 3.3 está licenciado sob a Licença da comunidade LLAMA 3.3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. compliance Os clientes são responsáveis por garantir o cumprimento dos termos desta licença e da Política de Uso Aceitável doLlama 3.3.

O Meta Llama 3.2 está licenciado sob a Licença da comunidade LLAMA 3.2, Copyright © Meta Platforms, Inc. Todos os direitos reservados. compliance Os clientes são responsáveis por garantir o cumprimento dos termos desta licença e da Política de Uso Aceitável doLlama 3.2.

O Meta Llama 3.1 está licenciado sob a Licença da comunidade LLAMA 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

Arquitetura do modelo

Tipos de tarefa

Notas

Meta Llama 3.3

Bate-papo ou conclusão

Meta Llama 3.2 3B

Bate-papo ou conclusão

Meta Llama 3.2 1B

Bate-papo ou conclusão

Meta Llama 3.1

Bate-papo ou conclusão

Meta Llama 3

Bate-papo ou conclusão

Meta Llama 2

Bate-papo ou conclusão

DBRX

Bate-papo ou conclusão

Veja os limites de provisionamento da Taxa de transferência para a disponibilidade da região.

Mistral

Bate-papo ou conclusão

Mixtral

Bate-papo ou conclusão

MPT

Bate-papo ou conclusão

GTE v1.5 (inglês)

Incorporação

Não gera incorporações normalizadas.

BGE v1.5 (inglês)

Incorporação