Modelos suportados para pay-per-tokens

Visualização

Esse recurso está em visualização pública.

Este artigo descreve os modelos abertos de última geração que são compatíveis com o modelo da FundaçãoDatabricks APIsno modo pay-per-tokens.

O senhor pode enviar solicitações de consulta a esses modelos usando o endpoint pay-per-tokens disponível em seu site Databricks workspace. Consulte a tabela Modelos de fundação de consultas e modelos suportados por pay-per-tokens para obter os nomes do ponto de extremidade do modelo a ser usado.

Além de oferecer suporte a modelos no modo pay-per-tokens, o Foundation Model APIs também oferece o modo de provisionamento Taxa de transferência. Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. Esse modo é compatível com todos os modelos de uma família de arquitetura de modelos (por exemplo, modelos DBRX), inclusive os modelos pré-treinados ajustados e personalizados compatíveis com o modo pay-per-tokens. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter a lista de arquiteturas compatíveis.

O senhor pode interagir com esses modelos suportados usando o AI Playground.

Instrução DBRX

Importante

O DBRX é fornecido sob e sujeito à Licença de Modelo Aberto da Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir que o compliance esteja em conformidade com as licenças de modelo aplicáveis, incluindo a política de uso aceitável doDatabricks .

O DBRX Instruct é um modelo de linguagem de mistura de especialistas (MoE) de última geração treinado pela Databricks.

O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, como: resumo de texto, resposta a perguntas, extração e codificação.

O DBRX Instruct pode lidar com até 32 mil tokens de comprimento de entrada e gera saídas de até 4 mil tokens. Graças à sua arquitetura MoE, o DBRX Instruct é altamente eficiente para a inferência, ativando apenas 36 bilhões de parâmetros de um total de 132 bilhões de parâmetros treinados. O pay-per-tokens endpoint que atende a esse modelo tem um limite de taxa de uma consulta por segundo. Veja servindo modelo limites e regiões.

Semelhante a outros modelos de linguagem de grande porte, a saída do DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.

Os modelos DBRX usam o seguinte prompt do sistema default para garantir a relevância e a precisão das respostas do modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B Instruct

Importante

Llama 3 está licenciado sob a Licença da comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

O Meta-Llama-3-70B-Instruct é um modelo de linguagem densa de 70B parâmetros de última geração com um contexto de 8.000 tokens que foi criado e treinado pelo Meta. O modelo é otimizado para casos de uso de diálogo e alinhado com as preferências humanas de ajuda e segurança. Ele não se destina a ser usado em outros idiomas além do inglês. Saiba mais sobre os modelos Meta Llama 3.

Semelhante a outros modelos de linguagem de grande porte, o resultado do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.

Lhama 2 70B Bate-papo

Importante

Llama 2 está licenciado sob a Licença LLAMA 2 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com os modelos de licença aplicáveis.

Llama-2-70B-Chat é um modelo de linguagem de parâmetros de 70B de última geração com um comprimento de contexto de 4.096 tokens, treinado pela Meta. Ele se destaca em aplicativos interativos que exigem fortes capacidades de raciocínio, incluindo resumos, respostas a perguntas e aplicativos de bate-papo.

Semelhante a outros modelos de linguagem de grande porte, o resultado do Llama-2-70B pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.

Instrução Mixtral-8x7B

Mixtral-8x7B Instruct é um modelo de mistura esparsa de especialistas (SMoE) de alta qualidade treinado pela Mistral IA. Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração.

O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral iguala ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks(desempenho do Mixtral), sendo quatro vezes mais rápido que o Llama 70B durante a inferência.

Semelhante a outros modelos de linguagem grande, não se deve confiar no modelo Mixtral-8x7B Instruct para produzir informações factualmente precisas. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que este modelo possa gerar resultados obscenos, tendenciosos ou ofensivos. Para reduzir o risco, o Databricks usa default uma variante do prompt do sistema do modo de segurança do Mistral.

GTE Large (En)

Importante

O GTE Large (En) é fornecido sob e sujeito à Licença Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.

O General Text Embedding (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo.

Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.

BGE Grande (En)

O BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo.

Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.

Em aplicações RAG, você pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:" para incorporações query , embora seu impacto no desempenho dependa do domínio.

Instrução MPT 7B

Importante

O MPT 7B Instruct está planejado para ser aposentado. Após 30 de agosto de 2024, esse modelo não será mais suportado.

MPT-7B-8K-Instruct é um modelo de parâmetros de 6,7B treinado pelo MosaicML para acompanhamento de instruções longas, especialmente respostas a perguntas e resumo de documentos mais longos. O modelo é pré-treinado para tokens 1,5T em uma mistura de dataset e ajustado em um dataset derivado do conjunto de dados Databricks Dolly-15k e do dataset de dados Antrópico Útil e Inofensivo (HH-RLHF). O nome do modelo que você vê no produto é mpt-7b-instruct, mas o modelo usado especificamente é a versão mais recente do modelo.

MPT-7B-8K-Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração. É muito rápido em relação ao Llama-2-70B, mas pode gerar respostas de qualidade inferior. Este modelo suporta um comprimento de contexto de 8 mil tokens. Saiba mais sobre o modelo MPT-7B-8k-Instruct.

Semelhante a outros modelos de linguagem deste tamanho, não se deve confiar no MPT-7B-8K-Instruct para produzir informações factualmente precisas. Este modelo foi treinado em vários dataset públicos. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que este modelo possa gerar resultados obscenos, tendenciosos ou ofensivos.

Instrução MPT 30B

Importante

O modelo MPT 30B Instruct está planejado para ser aposentado. Após 30 de agosto de 2024, esse modelo não será mais suportado.

MPT-30B-Instruct é um modelo de parâmetro 30B para instrução seguinte treinado pelo MosaicML. O modelo é pré-treinado para tokens 1T em uma mistura de texto e código em inglês e, em seguida, instruções adicionais ajustadas em um dataset derivado de Databricks Dolly-15k, Anthropic Help and Harmless (HH-RLHF), CompetitionMath, DuoRC, CoT dataset GSM8k, QASPER, QuALITY, SummScreen e Spider.

O MPT-30B-Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração. É muito rápido em relação ao Llama-2-70B, mas pode gerar respostas de qualidade inferior e não suporta bate-papo multivoltas. Este modelo suporta um comprimento de contexto de 8.192 tokens. Saiba mais sobre o modelo MPT-30B-Instruct.

Semelhante a outros modelos de linguagem deste tamanho, não se deve confiar no MPT-30B-Instruct para produzir informações factualmente precisas. Este modelo foi treinado em vários dataset públicos. Embora tenham sido feitos grandes esforços para limpar os dados pré-treinamento, é possível que este modelo possa gerar resultados obscenos, tendenciosos ou ofensivos.