Modelos suportados para pay-per-tokens
Importante
Somente os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões com suporte para pay-per-tokens da UE e dos EUA.
Consulte o Modelo Foundation APIs limites para os modelos pay-per-tokens compatíveis apenas com as regiões dos EUA.
Este artigo descreve os modelos abertos de última geração que são compatíveis com o modelo da FundaçãoDatabricks APIsno modo pay-per-tokens.
O senhor pode enviar solicitações de consulta a esses modelos usando o endpoint pay-per-tokens disponível em seu site Databricks workspace. Consulte a tabela Modelos de base de consulta e modelos externos e modelos suportados por pay-per-tokens para obter os nomes do ponto de extremidade do modelo a ser usado.
Além de oferecer suporte a modelos no modo pay-per-tokens, o Foundation Model APIs também oferece o modo de provisionamento Taxa de transferência. Databricks recomenda o provisionamento Taxa de transferência para cargas de trabalho de produção. Esse modo é compatível com todos os modelos de uma família de arquitetura de modelos (por exemplo, modelos DBRX), inclusive os modelos pré-treinados ajustados e personalizados compatíveis com o modo pay-per-tokens. Consulte o provisionamento Taxa de transferência Foundation Model APIs para obter a lista de arquiteturas compatíveis.
O senhor pode interagir com esses modelos suportados usando o AI Playground.
Meta Llama 3.1 405B Instruct
Visualização
O uso desse modelo com as APIs do Foundation Model está em Public Preview. Entre em contato com a equipe do Databricks account se o senhor encontrar falhas no endpoint ou erros de estabilização ao usar esse modelo.
Importante
O Meta Llama 3.1 está licenciado sob a Licença da comunidade LLAMA 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pelo Meta. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado em várias etapas e geração de dados sintéticos de alta qualidade. Esse modelo é competitivo com o GPT-4-Turbo em termos de qualidade.
Como o Meta-Llama-3.1-70B-Instruct, Esse modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha com as preferências humanas de ajuda e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.
Semelhante a outros modelos de linguagem de grande porte, o Llama-3.1 O resultado pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Instrução DBRX
Importante
O DBRX é fornecido sob e sujeito à Licença de Modelo Aberto da Databricks, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir que o compliance esteja em conformidade com as licenças de modelo aplicáveis, incluindo a política de uso aceitável doDatabricks .
O DBRX Instruct é um modelo de linguagem de mistura de especialistas (MoE) de última geração treinado pela Databricks.
O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, como: resumo de texto, resposta a perguntas, extração e codificação.
O DBRX Instruct pode lidar com até 32 mil tokens de comprimento de entrada e gera saídas de até 4 mil tokens. Graças à sua arquitetura MoE, o DBRX Instruct é altamente eficiente para a inferência, ativando apenas 36 bilhões de parâmetros de um total de 132 bilhões de parâmetros treinados. O pay-per-tokens endpoint que atende a esse modelo tem um limite de taxa de uma consulta por segundo. Veja servindo modelo limites e regiões.
Semelhante a outros modelos de linguagem de grande porte, a saída do DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Os modelos DBRX usam o seguinte prompt do sistema default para garantir a relevância e a precisão das respostas do modelo:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Meta Llama 3.1 70B Instruct
Importante
A partir de 23 de julho de 2024, o Meta-Llama-3.1-70B-Instruct Substitui o suporte para Meta-Llama-3-70B-Instruct no modelo Foundation APIs pay-per-tokens endpoint.
Importante
O Meta Llama 3.1 está licenciado sob a Licença da comunidade LLAMA 3.1, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O Meta-Llama-3.1-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi criado e treinado pelo Meta. O modelo é compatível com dez idiomas, alinha-se com as preferências humanas de utilidade e segurança e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.
Semelhante a outros modelos de linguagem de grande porte, o resultado do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.
Instrução Mixtral-8x7B
Mixtral-8x7B Instruct é um modelo de mistura esparsa de especialistas (SMoE) de alta qualidade treinado pela Mistral IA. Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, como resposta a perguntas, resumo e extração.
O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral iguala ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks(desempenho do Mixtral), sendo quatro vezes mais rápido que o Llama 70B durante a inferência.
Semelhante a outros modelos de linguagem grande, não se deve confiar no modelo Mixtral-8x7B Instruct para produzir informações factualmente precisas. Embora tenham sido feitos grandes esforços para limpar os dados de pré-treinamento, é possível que este modelo possa gerar resultados obscenos, tendenciosos ou ofensivos. Para reduzir o risco, o Databricks usa default uma variante do prompt do sistema do modo de segurança do Mistral.
GTE Large (En)
Importante
O GTE Large (En) é fornecido sob e sujeito à Licença Apache 2.0, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir o compliance com as licenças de modelo aplicáveis.
O General Text Embedding (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
BGE Grande (En)
O BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados de vetores para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, clustering ou pesquisa semântica. Esse endpoint serve a versão em inglês do modelo.
Os modelos de incorporação são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
Em aplicações RAG, você pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:"
para incorporações query , embora seu impacto no desempenho dependa do domínio.
Lhama 2 70B Bate-papo
Importante
O Llama 2 70B Chat está planejado para ser aposentado. Após 30 de outubro de 2024, esse modelo não será mais suportado. Veja os modelos aposentados.
Importante
Llama 2 está licenciado sob a Licença LLAMA 2 comunidade, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir compliance com os modelos de licença aplicáveis.
Llama-2-70B-Chat é um modelo de linguagem de parâmetros de 70B de última geração com um comprimento de contexto de 4.096 tokens, treinado pela Meta. Ele se destaca em aplicativos interativos que exigem fortes capacidades de raciocínio, incluindo resumos, respostas a perguntas e aplicativos de bate-papo.
Semelhante a outros modelos de linguagem de grande porte, o resultado do Llama-2-70B pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários em que a precisão é especialmente importante.