Pular para o conteúdo principal

Modelos de fundação suportados no Mosaic AI Model Serving

Este artigo descreve os modelos de fundação que o senhor pode utilizar Mosaic AI Model Serving.

Os modelos Foundation são neurais de rede grandes e pré-treinados que são treinados em grandes e amplas faixas de dados. Esses modelos são projetados para aprender padrões gerais em linguagem, imagens ou outros tipos de dados e podem ser ajustados para tarefas específicas com treinamento adicional.

O servindo modelo oferece opções flexíveis para hospedagem e consulta de modelos da fundação com base em suas necessidades:

  • Pagamento por tokens: Ideal para experimentação e exploração rápida. Essa opção permite que o senhor consulte um endpoint pré-configurado em seu Databricks workspace sem compromissos iniciais de infraestrutura.
  • provisionamento Taxa de transferência: Recomendado para casos de uso de produção que exigem garantias de desempenho. Essa opção permite a implementação de modelos de fundação ajustados com endpoint de atendimento otimizado.
  • Modelos externos: Essa opção permite o acesso a modelos de fundação hospedados fora da Databricks, como os fornecidos pela OpenAI ou pela Anthropic. Esses modelos podem ser gerenciados de forma centralizada em Databricks para uma governança simplificada.

Modelos básicos hospedados na Databricks

A Databricks hospeda modelos de base aberta de última geração, como o Meta Llama. Esses modelos são disponibilizados usando o Foundation Model APIs e são acessíveis usando pay-per-tokens ou provisionamento de taxa de transferência.

Pay-per-tokens

Modelo básico APIs pay-per-tokens é recomendado para começar e explorar rapidamente. Quando um modelo é suportado usando o Foundation Model APIs pay-per-tokens, o Databricks fornece um endpoint pré-configurado em seu Databricks workspace que o senhor pode testar e consultar. O senhor também pode interagir e conversar com esses modelos usando o AI Playground.

important
  • A partir de 11 de dezembro de 2024, Meta-Llama-3.3-70B-Instruct Substitui o suporte para Meta-Llama-3.1-70B-Instruct no modelo Foundation APIs pay-per-tokens endpoint.
  • Os modelos a seguir estão agora retirados. Consulte Modelos retirados para ver os modelos de substituição recomendados.
    • Llama 2 70B Chat
    • Instrução MPT 7B
    • Instrução MPT 30B

A tabela a seguir resume os modelos suportados para pay-per-tokens. Consulte os limites das APIs do Foundation Model para obter a disponibilidade de regiões específicas do modelo.

Modelo

Tipo de tarefa

Endpoint

Notas

Claude-3.7-Soneto

Bate-papo

databricks-claude-3.7-sonnet

GTE Large (inglês)

Incorporação

databricks-gte-large-en

Não gera incorporações normalizadas.

Meta-Llama-3.3-70B-Instruct

Bate-papo

databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.1-405B-Instruct *

Bate-papo

databricks-meta-llama-3-1-405b-instruct

DBRX Instruct

Bate-papo

databricks-dbrx-instruct

Esse modelo não é mais suportado após 30 de abril de 2025.

Instrução Mixtral-8x7B

Bate-papo

databricks-mixtral-8x7b-instruct

Esse modelo não é mais suportado após 30 de abril de 2025.

BGE Large (inglês)

Incorporação

databricks-bge-large-en

* Entre em contato com a equipe do Databricks account se o senhor encontrar falhas no endpoint ou erros de estabilização ao usar esse modelo.

provisionamento Taxa de transferência

Modelo de fundação APIs provisionamento A taxa de transferência é recomendada para casos de produção. O senhor pode criar um endpoint que use o provisionamento Taxa de transferência para implantar arquiteturas de modelo de fundação ajustadas. Quando o senhor usa o provisionamento Taxa de transferência, o serviço endpoint é otimizado para cargas de trabalho do modelo básico que exigem garantias de desempenho.

A tabela a seguir resume as arquiteturas de modelo compatíveis com o provisionamento da Taxa de transferência. Databricks recomenda o uso de modelos de base pré-treinados em Unity Catalog porque esses modelos são especificamente otimizados para cargas de trabalho de Taxa de transferência de provisionamento. Consulte os limites da Taxa de transferência de provisionamento para saber quais são as variantes de modelos suportadas e a disponibilidade de regiões.

important

O Meta Llama 3.3 está licenciado sob a Licença da comunidade LLAMA 3.3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. compliance Os clientes são responsáveis por garantir o cumprimento dos termos desta licença e da Política de Uso Aceitável doLlama 3.3.

O Meta Llama 3.2 está licenciado sob a Licença da comunidade LLAMA 3.2, Copyright © Meta Platforms, Inc. Todos os direitos reservados. compliance Os clientes são responsáveis por garantir o cumprimento dos termos desta licença e da Política de Uso Aceitável doLlama 3.2.

O Meta Llama 3.1 está licenciado sob a Licença da comunidade LLAMA 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

Arquitetura do modelo

Tipos de tarefa

Notas

DeepSeek R1

Bate-papo

O senhor pode download esses modelos, registrá-los em Unity Catalog e implantá-los usando o provisionamento Taxa de transferência.

Meta Llama 3.3

Bate-papo ou conclusão

Meta Llama 3.2 3B

Bate-papo ou conclusão

Meta Llama 3.2 1B

Bate-papo ou conclusão

Meta Llama 3.1

Bate-papo ou conclusão

Meta Llama 3

Bate-papo ou conclusão

Meta Llama 2

Bate-papo ou conclusão

DBRX

Bate-papo ou conclusão

Mistral

Bate-papo ou conclusão

Mixtral

Bate-papo ou conclusão

MPT

Bate-papo ou conclusão

GTE v1.5 (inglês)

Incorporação

Não gera incorporações normalizadas.

BGE v1.5 (inglês)

Incorporação

Acessar modelos de fundação hospedados fora da Databricks

Os modelos básicos criados por provedores de LLM, como OpenAI e Anthropic, também podem ser acessados no Databricks usando modelos externos. Esses modelos são hospedados fora da Databricks e o senhor pode criar um endpoint para consultá-los. Esses endpoints podem ser controlados de forma centralizada em Databricks, o que simplifica o uso e o gerenciamento de vários provedores de LLM em sua organização.

A tabela a seguir apresenta uma lista não exaustiva dos modelos compatíveis e dos tipos de endpoint correspondentes. O senhor pode usar as associações de modelos listadas para ajudá-lo a configurar seu endpoint para quaisquer tipos de modelos recém-lançados, à medida que eles se tornam disponíveis em um determinado provedor. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

nota

Com o rápido desenvolvimento dos LLMs, não há garantia de que essa lista esteja sempre atualizada. Geralmente, há suporte para novas versões de modelos do mesmo fornecedor, mesmo que não estejam na lista.

Fornecedor de modelos

llm/v1/conclusões

llm/v1/chat

llm/v1/incorporações

IA aberta**

  • gpt-3.5-turbo-instruct - baby-002 - davinci-002
  • o1 - o1-mini - o1-mini-2024-09-12 - gpt-3,5 turbo - gpt-4 - gpt-4-turbo - gpt-4-turbo-2024-04 - gpt-4o - gpt-4o-2024-05-13 - gpt-4o-mini
  • incorporação de texto-ada-002 - incorporação de texto - 3 grandes - incorporação de texto - 3-small

Azure OpenAI**

  • texto-davinci-003 - instrução gpt-35 turbo
  • o1 - o1-mini - gpt-35 turbo - gpt-35-turbo-16k - gpt-4 - gpt-4-turbo - gpt-4-32k - gpt-4o - gpt-4o-mini
  • incorporação de texto-ada-002 - incorporação de texto - 3 grandes - incorporação de texto - 3-small

Anthropic

  • cláusula 1 - cláusula 1.3-100k - cláusula 2 - cláusula 2.1 - cláusula 2.0 - claude-instant-1.2
  • claude-3-5-soneto mais recente - claude-3-5-haiku-latest - claude-3-5-opus-latest - claude-3-5-soneto-20241022 - claude-3-5-haiku-20241022 - claude-3-5-soneto-20240620 - claude-3-haiku-20240307 - claude-3-opus-20240229 - claude-3-soneto-20240229

Coer**

  • comando - luz de comando
  • comando-r7b-12-2024 - comando-r-plus-08-2024 - comando-r-08-2024 - comando-r-plus - comando-r - comando - comando-light-nightly - luz de comando - comando-noturno
  • incorporar inglês-v2.0 - incorporar multilíngue-v2.0 - incorporar luz em inglês v2.0 - incorporar inglês-v3.0 - incorporar luz em inglês v3.0 - incorporar multilíngue-v3.0 - incorporar luz multilíngue v3.0

Mosaic AI Model Serving

Databricks servindo endpoint

Databricks servindo endpoint

Databricks servindo endpoint

Amazon Bedrock

Anthropic: - claude-instant-v1 - claude-v2 Cohere: - comando-texto-v14 - texto de luz de comando-v14 AI21 Labs: - instrução j2-grande-instruct - instrução j2-jumbo - j2-mid - j2 no meio da v1 - j2-ultra - j2-ultra-v1

Anthropic: - claude-3-5-soneto-20241022-v 2:0 - claude-3-5-haiku-20241022-v 1:0 - claude-3-opus-20240229-v 1:0 - claude-3-soneto-20240229-v 1:0 - claude-3-5-soneto-20240620-v 1:0 Cohere: - comando-r-plus-v1:0 - comando-r-v1:0

Amazon: - texto incorporado em titã v1 - titan-embed-g1-text-02 Cohere: - incorporar inglês-v3 - incorporar multilíngue-v3

AI21 Labs

  • j2-mid - luz j2 - j2-ultra

Google Cloud Vertex AI

bisonte de texto

  • bisonte do bate-papo - gemini-pro - gemini-1.0-pro - gemini-1.5-pro - gemini-1.5-flash - flash gemini-2.0
  • incorporação de texto-004 - incorporação de texto-005 - lagartixa embutida em texto

** O provedor de modelos oferece suporte a modelos de preenchimento e bate-papo aprimorados. Para consultar um modelo ajustado, preencha o campo name da configuração external model com o nome do seu modelo ajustado.

O provedor de modelos oferece suporte a modelos de conclusão personalizados.

Criar um endpoint de modelo de serviço de fundação

Para consultar e usar modelos básicos em seus aplicativos AI, o senhor deve primeiro criar um modelo de serviço endpoint. O servindo modelo usa um API e uma UI unificados para criar e atualizar o endpoint do servindo modelo da fundação.

Query foundation servindo modelo endpoint

Depois de criar o endpoint de serviço, o senhor poderá consultar o modelo da fundação. O servindo modelo usa um API e um SDK unificados e compatíveis com o OpenAI para consultar os modelos da fundação. Essa experiência unificada simplifica a forma como você experimenta e personaliza modelos básicos para produção em nuvens e fornecedores compatíveis.

Consulte Usar modelos de base.