APIs do modelo do Databricks Foundation

Este artigo fornece uma visão geral das APIs do Foundation Model em Databricks. Inclui requisitos de uso, modelos suportados e limitações.

O que são APIs do modelo Databricks Foundation?

O modelo de operação do Databricks agora oferece suporte a APIs de modelo básico que permitem acessar e query modelos abertos de última geração a partir de um endpoint de serviço. Com as APIs do Foundation Model, você pode criar aplicativos de forma rápida e fácil que aproveitam um modelo de IA generativo de alta qualidade sem manter a implantação do seu próprio modelo.

As APIs do Foundation Model são fornecidas em duas modalidades de preços:

  • Pagamento por tokens: Essa é a maneira mais fácil de começar a acessar os modelos de fundação em Databricks e é recomendada para iniciar sua jornada com o Modelo de Fundação APIs. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.

  • provisionamento Taxa de transferência: Esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou requisitos de segurança adicionais. O provisionamento do endpoint da Taxa de transferência está disponível com as certificações compliance, como HIPAA.

Consulte Usar APIs do Modelo Básico para obter orientação sobre como usar esses dois modos e os modelos com suporte.

Usando as APIs do Foundation Model, o senhor pode:

  • query um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.

  • query um LLM generalizado para criar uma rápida prova de conceito para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo customizado.

  • Use um modelo básico, juntamente com um banco de dados vetorial, para construir um chatbot usando geração aumentada de recuperação (RAG).

  • Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.

  • Compare LLMs com eficiência para ver qual é o melhor candidato para seu caso de uso ou swap um modelo de produção por um de melhor desempenho.

  • Crie um aplicativo LLM para desenvolvimento ou produção com base em um LLM escalonável e apoiado por SLA que serve soluções que podem suportar seus picos de tráfego de produção.

Requisitos

Observação

Para cargas de trabalho de taxa de transferência de provisionamento que usam o modelo DBRX Base, consulte Modelo Foundation APIs limites para disponibilidade de região.

Use APIs do modelo básico

O senhor tem várias opções para usar as APIs do Foundation Model.

As APIs são compatíveis com o OpenAI, portanto, o senhor pode até mesmo usar o cliente OpenAI para fazer consultas. O senhor também pode usar a interface do usuário, o SDK Python das APIs do Foundation Models, o SDK do MLflow Deployments ou a API REST para consultar os modelos compatíveis. A Databricks recomenda usar o MLflow Deployments SDK ou a API REST para interações estendidas e a interface do usuário para experimentar o recurso.

Consulte Modelos de base de consulta para obter exemplos de pontuação.

APIs do modelo básico de pagamento portokens

Visualização

Esse recurso está em visualização pública.

Os modelos pay-per-tokens estão disponíveis em seu site Databricks workspace, e são recomendados para começar. Para acessá-los em seu site workspace, navegue até Serving tab na barra lateral esquerda. O Foundation Model APIs está localizado na parte superior da lista de endpoints view.

Servindo lista endpoint

A tabela a seguir resume os modelos suportados para pay-per-tokens. Consulte Modelos suportados para pay-per-tokens para obter informações adicionais sobre o modelo.

Se quiser testar e conversar com esses modelos, o senhor pode fazer isso usando o AI Playground. Consulte Bate-papo com LLMs compatíveis usando o AI Playground.

Modelo

Tipo de tarefa

Endpoint

Instrução DBRX

Bater papo

databricks-dbrx-instruct

Lhama 2 70B Bate-papo

Bater papo

databricks-llama-2-70b-chat

Instrução Mixtral-8x7B

Bater papo

databricks-mixtral-8x7b-instruct

Instrução MPT 7B

Conclusão

databricks-mpt-7b-instruct

Instrução MPT 30B

Conclusão

databricks-mpt-30b-instruct

BGE Grande (Inglês)

Incorporação

databricks-bge-large-en

provisionamento Taxa de transferência Foundation Model APIs

O provisionamento Taxa de transferência está geralmente disponível e o site Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. O provisionamento Taxa de transferência fornece ao endpoint uma inferência otimizada para cargas de trabalho do modelo de fundação que exigem garantias de desempenho. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter um guia passo a passo sobre como implantar o Foundation Model APIs no provisionamento em todo o modo.

O apoio ao provisionamento Taxa de transferência inclui:

  • Modelos básicos de todos os tamanhos, como o DBRX Base. Os modelos básicos podem ser acessados usando o Databricks Marketplace download Hugging Face site ou, alternativamente, o Unity Catalog senhor pode acessá-los em ou em outra fonte externa e registrá-los no site . A última abordagem funciona com qualquer variante de ajuste fino dos modelos suportados, independentemente do método de ajuste fino empregado.

  • Variantes ajustadas de modelos básicos, como LlamaGuard-7B. Isso inclui modelos ajustados com base em dados proprietários.

  • Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados continuamente ou outras variações usando a arquitetura do modelo básico (como CodeLlama, Yi-34B-Chat ou SOLAR-10.7B).

A tabela a seguir resume as arquiteturas de modelo suportadas para provisionamento Taxa de transferência.

Arquitetura do modelo

tipos de tarefa

Notas

Base DBRX

Bate-papo ou conclusão

Consulte os limites das APIs do Foundation Model para obter a disponibilidade da região.

Lhama 2

Bate-papo ou conclusão

Mistral

Bate-papo ou conclusão

Mixtral

Bate-papo ou conclusão

MPT

Bate-papo ou conclusão

BGE v1.5 (Inglês)

Incorporação