Modelos de base suportados no Databricks
Beta
Este recurso está em Beta. Administradores de conta podem controlar o acesso a este recurso na página Prévias do console da conta. Consulte Gerenciar prévias do Databricks.
Este artigo descreve os modelos de base de última geração hospedados pela Databricks que você pode consultar por meio de serviços de modelo no Unity AI Gateway.
A Databricks oferece um serviço de modelo pronto para uso fornecido pelo sistema no catálogo system e esquema ai (system.ai) para cada um desses modelos. Identifique um serviço de modelo pelo seu nome totalmente qualificado como o slug do modelo—por exemplo, system.ai.claude-sonnet-4-5—e envie solicitações para o URL base do Unity AI Gateway do seu workspace, https://<workspace-url>/ai-gateway/mlflow/v1.
Para a disponibilidade de região e recurso desses modelos e serviços, consulte disponibilidade dos recursos de servindo modelo.
Consulte esses modelos como serviços de modelo no Unity AI Gateway. Consulte Consultar modelos base para as opções de consulta e Descobrir modelos base para descobrir os serviços de modelo disponíveis para você.
Você pode interagir com esses modelos compatíveis utilizando o AI Playground.
OpenAI GPT-5.5 Pro
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
O GPT-5.5 Pro usa cache de prompt estendido. Os tensores armazenados em cache ficam em armazenamento local da GPU por no máximo 24 horas.
Nome do serviço de modelo : system.ai.gpt-5-5-pro
Entradas compatíveis : texto, imagem
GPT-5.5 Pro é uma variante de maior precisão do GPT-5.5, voltada para os problemas mais difíceis, incluindo pesquisa aprofundada, matemática avançada e raciocínio de alto risco. Este modelo oferece suporte a entradas multimodais e apresenta uma janela de contexto total de 400K tokens com 128K tokens de saída máximos.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.5 Pro pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.5
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
O GPT-5.5 usa caching de prompt estendido. Os tensores armazenados em cache ficam em armazenamento local da GPU por no máximo 24 horas.
Nome do serviço de modelo : system.ai.gpt-5-5
Entradas compatíveis : texto, imagem
GPT-5.5 é o modelo de fronteira mais forte da OpenAI para fluxos de trabalho de agentes corporativos, raciocínio complexo de documentos e agentes de codificação de longo alcance. O GPT-5.5 também potencializa o Codex, o agente de codificação da OpenAI. Este modelo suporta entradas multimodais e possui o recurso de uma janela de contexto de 400 mil tokens totais com 128 mil tokens de saída máximos.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.4
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-4
Entradas compatíveis : texto, imagem
GPT-5.4 é um grande modelo de linguagem de uso geral com recursos de raciocínio desenvolvido pela OpenAI. Ele oferece desempenho aprimorado em tarefas complexas, com precisão aprimorada e raciocínio estruturado mais deliberado. Este modelo suporta entradas multimodais e possui o recurso de uma janela de contexto de 400K tokens totais com 128K tokens de saída máximos.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.4 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.4 mini
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-4-mini
Entradas compatíveis : texto, imagem
GPT-5.4 mini é um modelo de linguagem grande de propósito geral otimizado para custos com recursos de raciocínio desenvolvido pela OpenAI. Construído no GPT-5.4 arquitetura, este modelo oferece desempenho aprimorado em tarefas bem definidas que exigem raciocínio confiável, linguagem precisa e saída rápida. Suporta entradas multimodais e apresenta o recurso de uma janela de contexto de 400K tokens totais com 128K tokens de saída máximos.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.4 mini pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.4 nano
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-4-nano
Entradas compatíveis : texto, imagem
GPT-5.4 nano é um modelo de linguagem grande de uso geral com recursos de raciocínio desenvolvido pela OpenAI. Construído no GPT-5.4 arquitetura, este modelo se destaca em tarefas de alta taxa de transferência, como seguir instruções simples ou classificação para processos de negócios rotineiros ou aplicativos móveis. Ele suporta entradas multimodais e possui o recurso de uma janela de contexto total de 400K tokens com um máximo de 128K tokens de saída.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.4 nano pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.3 Codex
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Este modelo não é compatível no AI Playground. Utilize a API de respostas para interagir com este modelo.
Nome do serviço de modelo : system.ai.gpt-5-3-codex
Entradas compatíveis : texto, imagem
O GPT-5.3 Codex é o modelo de codificação agêntica mais avançado da OpenAI, projetado para lidar com tarefas complexas e de longa duração que envolvem pesquisa, uso de ferramentas e execução. Ele combina o desempenho de codificação de ponta do GPT-5.2 Codex com o raciocínio e o conhecimento profissional do GPT-5.2, enquanto opera 25% mais rápido. O modelo oferece suporte a entradas multimodais e apresenta um recurso de janela de contexto de tokens total de 400K com um máximo de 128K tokens de saída.
Assim como outros grandes modelos de linguagem, o GPT-5.3 A saída do Codex pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.2 Codex
-
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
-
OpenAI GPT-5.2 O Codex será desativado em 16 de julho de 2026. Consulte Modelos desativados para obter o modelo de substituição recomendado e as orientações sobre como migrar durante a desativação.
Este modelo não é compatível no AI Playground. Utilize a API de respostas para interagir com este modelo.
Nome do serviço de modelo : system.ai.gpt-5-2-codex
Entradas compatíveis : texto, imagem
GPT-5.2 Codex é um grande modelo de linguagem especializado em código construído na arquitetura GPT-5.2 com capacidades de codificação aprimoradas, destacando-se em geração de código, refatoração, depuração e tarefas de engenharia de software. O modelo oferece suporte a entradas multimodais e conta com o recurso de uma janela de contexto total de 400K tokens com 128K tokens de saída máximos.
Assim como outros Grandes Modelos de Linguagem, o GPT-5.2 A saída do Codex pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda usar a geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.2
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-2
Entradas compatíveis : texto, imagem
GPT-5.2 é um modelo de linguagem grande de propósito geral com recursos de raciocínio desenvolvido pela OpenAI. Este modelo é baseado diretamente no GPT-5.1, oferecendo maior precisão, eficiência aprimorada de tokens em tarefas de média a alta complexidade e raciocínio mais deliberado e estruturado. Este modelo se destaca em extração estruturada, fluxos de trabalho de várias etapas e tarefas multimodais. Suporta entradas multimodais e apresenta o recurso de uma janela de contexto de 400K tokens totais com 128K tokens de saída máximos.
Assim como outros grandes modelos de linguagem, a saída do GPT-5.1 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso da geração aumentada por recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.1
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-1
Entradas compatíveis : texto, imagem
GPT-5.1 é um modelo de linguagem grande de uso geral com capacidades de raciocínio desenvolvido pela OpenAI. Este modelo traz o recurso de modos Instantâneo e Pensamento para conversas rápidas ou raciocínio profundo, ajustando-se automaticamente para tarefas simples ou complexas. O modelo se destaca em criação de conteúdo, tutoria, suporte técnico e codificação, com menos dependência de engenharia de prompt rigorosa do que as versões anteriores. Suporta entradas multimodais e apresenta uma janela de contexto de tokens total de 400K com 128K tokens de saída máximos. Saiba mais sobre GPT-5.1.
Assim como em outros grandes modelos de linguagem, a saída do GPT-5.1 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.1 Codex Max
-
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
-
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
-
O OpenAI GPT-5.1 Codex Max será desativado em 16 de julho de 2026. Consulte Modelos descontinuados para o modelo de substituição recomendado e orientação sobre como migrar durante a descontinuação.
Este modelo não é compatível no AI Playground. Você pode usar a API de Respostas para interagir com este modelo.
Nome do serviço de modelo : system.ai.gpt-5-1-codex-max
Entradas compatíveis : texto, imagem
GPT-5.1 Codex Max é o modelo de linguagem grande especializado em código de alto desempenho da OpenAI. Desenvolvido com base na arquitetura GPT-5.1 com desempenho máximo de codificação, ele se destaca na geração de código complexo, refatoração em larga escala e tarefas de engenharia de software empresarial. Ele suporta entradas multimodais e apresenta uma janela de contexto total de 400 mil tokens com um máximo de 128 mil tokens de saída.
Assim como em outros grandes modelos de linguagem, a saída do GPT-5.1 Codex Max pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5.1 Codex Mini
-
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
-
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
-
OpenAI GPT-5.1 Codex Mini será desativado em 16 de julho de 2026. Consulte modelos desativados para o modelo de substituição recomendado e orientações sobre como migrar durante a desativação.
Este modelo não é compatível no AI Playground. Você pode usar a API de Respostas para interagir com este modelo.
Nome do serviço de modelo : system.ai.gpt-5-1-codex-mini
Entradas compatíveis : texto, imagem
O GPT-5.1 Codex Mini é o grande modelo de linguagem da OpenAI otimizado para custo e especializado em código. Desenvolvido com base na arquitetura GPT-5.1 com capacidades de codificação eficientes, ele se destaca na conclusão de código, refatoração simples e tarefas de codificação diárias. Ele suporta entradas multimodais e apresenta uma janela de contexto total de 400 mil tokens com um máximo de 128 mil tokens de saída.
Assim como em outros grandes modelos de linguagem, a saída do GPT-5.1 Codex Mini pode omitir alguns fatos e ocasionalmente produzir informação falsa. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5
Entradas compatíveis : texto, imagem
O GPT-5 é um modelo de linguagem grande de uso geral e de raciocínio de última geração construído e treinado pela OpenAI. Ele suporta entradas multimodais e possui o recurso de uma janela de contexto de 400 mil tokens totais com um máximo de 128 mil tokens de saída. O modelo é construído para codificação, chat, raciocínio e tarefas orientadas por agentes.
Assim como outros grandes modelos de linguagem, a saída do GPT-5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5 mini
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-mini
Entradas compatíveis : texto, imagem
GPT-5 mini é um modelo de linguagem grande e de raciocínio de última geração, de uso geral, construído e treinado pela OpenAI. Ele suporta entradas multimodais e possui o recurso de uma janela de contexto de 400 mil tokens totais com um máximo de 128 mil tokens de saída. O modelo é otimizado para custos de raciocínio e cargas de trabalho de chat e se destaca em tarefas bem definidas que exigem raciocínio confiável, linguagem precisa e saída rápida para texto e imagens.
Assim como outros grandes modelos de linguagem, a saída do GPT-5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
OpenAI GPT-5 nano
Os clientes são responsáveis por garantir o compliance com os termos do modelo aplicáveis.
Nome do serviço de modelo : system.ai.gpt-5-nano
Entradas compatíveis : texto, imagem
O GPT-5 nano é um grande modelo de linguagem e modelo de raciocínio de uso geral de ponta, construído e treinado pela OpenAI. Ele suporta entradas multimodais e possui o recurso de uma janela de contexto total de 400K tokens com 128K tokens de saída máximos. O modelo se destaca em tarefas de alta taxa de transferência, como seguimento simples de instruções ou classificação para processos de negócios rotineiros ou aplicativos móveis.
Assim como outros modelos de linguagem grandes, a saída do GPT-5 pode omitir alguns fatos e, ocasionalmente, produzir informação falsa. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Google Gemini 3.1 Flash Lite
Consulte os termos de modelo aplicáveis para Gemini 3.1 Flash Lite.
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
Nome do serviço de modelo : system.ai.gemini-3-1-flash-lite
Entradas compatíveis : texto, imagem, vídeo, áudio
Gemini 3.1 Flash Lite é o modelo mais rápido e mais econômico da série Gemini 3, desenvolvido e treinado pelo Google. Construído para inteligência em escala, o modelo suporta entradas multimodais com recursos de imagem, chamada de função e saída estruturada. Gemini 3.1 Flash Lite é otimizado para implantações de alta taxa de transferência e econômicas. Saiba mais sobre o Gemini 3.1 Flash Lite.
Assim como outros grandes modelos de linguagem, a saída do Gemini 3.1 Flash Lite pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Google Gemini 3.5 Flash
Consulte Termos de Modelo Aplicáveis para Gemini 3.5 Flash.
Este modelo exige que o roteamento entre geografias seja ativado para regiões fora das geografias dos EUA e da UE.
Nome do serviço de modelo : system.ai.gemini-3-5-flash
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 3.5 Flash é um modelo de AI multimodal de alta velocidade e econômico desenvolvido e treinado pelo Google. Como o passo significativo em relação ao Gemini 3 Flash, este modelo oferece raciocínio mais robusto, recursos multimodais avançados e melhor desempenho de preço para implantações em escala de produção. O Gemini 3.5 Flash é otimizado para cargas de trabalho de alta taxa de transferência, como análise de vídeo complexa, extração de dados e perguntas e respostas visuais. Saiba mais sobre o Gemini 3.5 Flash.
Assim como outros grandes modelos de linguagem, a saída do Gemini 3.5 Flash pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada por recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Google Gemini 3 Flash
Consulte Termos de modelo aplicáveis para Gemini 3 Flash.
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
Nome do serviço de modelo : system.ai.gemini-3-flash
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 3 Flash é um modelo de AI multimodal de alta velocidade e econômico, desenvolvido e treinado pelo Google. Este modelo oferece velocidade e escala sem comprometer a qualidade, apresentando recursos multimodais avançados para análise complexa de vídeo, extração de dados e perguntas e respostas visuais quase em tempo real. O Gemini 3 Flash oferece melhor relação preço-desempenho e velocidades mais rápidas, possibilitando implantações em escala de produção. Saiba mais sobre o Gemini 3 Flash.
Assim como outros grandes modelos de linguagem, a saída do Gemini 3 Flash pode omitir alguns fatos e ocasionalmente produzir informação falsa. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Prévia do Google Gemini 3.1 Pro
Consulte os Termos aplicáveis ao modelo para Gemini 3.1 Pro Preview.
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
Nome do serviço de modelo : system.ai.gemini-3-1-pro
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 3.1 Pro Preview é um modelo de raciocínio híbrido de última geração com uma janela de contexto de 1 milhão de tokens, desenvolvido e treinado pelo Google. Em comparação com o Gemini 3 Pro, o Gemini 3.1 Pro oferece raciocínio mais forte e inteligência de documentos, tornando-o um modelo geral mais inteligente para fluxos de trabalho e tarefas complexos. Ele se destaca em raciocínio complexo, análise aprofundada e compreensão multimodal em uma ampla variedade de entradas e tarefas.
Assim como outros Grandes Modelos de Linguagem, a saída do Gemini 3.1 Pro Preview pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Prévia do Google Gemini 3 Pro
Consulte Termos aplicáveis ao modelo para a prévia do Gemini 3 Pro.
Este modelo está hospedado em um endpoint global e requer que o roteamento entre geografias seja habilitado.
O Google Gemini 3 Pro Preview será desativado em 26 de março de 2026. Consulte Modelos desativados para ver o modelo de substituição recomendado e a orientação sobre como migrar durante a preterição. Para permitir mais tempo para a migração, entre 26 de março de 2026 e 7 de junho de 2026, as chamadas de API para o Gemini 3 Pro serão redirecionadas temporariamente para o Gemini 3.1 Pro. Os preços de ambos os modelos são idênticos.
Nome do serviço de modelo : system.ai.gemini-3-pro
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 3 Pro Preview é um modelo de raciocínio híbrido de última geração com uma janela de contexto de 1 milhão de tokens, desenvolvido e treinado pelo Google. Os recursos avançados de raciocínio e as funcionalidades multimodais integradas do Gemini 3 Pro permitem que ele se destaque em raciocínio complexo, análise profunda e compreensão multimodal em uma ampla gama de entradas e tarefas.
Assim como outros grandes modelos de linguagem, a saída do Gemini 3 Pro Preview pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada por recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Google Gemini 2.5 Pro
Consulte Termos aplicáveis ao modelo para o Gemini 2.5 Pro.
Nome do serviço de modelo : system.ai.gemini-2-5-pro
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 2.5 Pro é um modelo de raciocínio híbrido com uma janela de contexto de 1 milhão de tokens, desenvolvido e treinado pelo Google. O "Deep Think Mode" e a saída de áudio integrada do Gemini 2.5 Pro o diferenciam como um modelo líder para aplicações corporativas, de pesquisa e criativas. Ele é projetado para se destacar em raciocínio complexo, análise aprofundada e compreensão multimodal em uma ampla gama de entradas e tarefas. Saiba mais sobre o Gemini 2.5 Pro.
Assim como outros grandes modelos de linguagem, a saída do Gemini 2.5 Pro pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada por recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Google Gemini 2.5 Flash
Consulte Termos de modelo aplicáveis para o Gemini 2.5 Flash.
Nome do serviço de modelo : system.ai.gemini-2-5-flash
Entradas compatíveis : texto, imagem, vídeo, áudio
O Gemini 2.5 Flash é um modelo de AI multimodal de alta velocidade e econômico, desenvolvido e treinado pelo Google. É o primeiro modelo de raciocínio totalmente híbrido do Google, projetado para desenvolvedores e empresas que buscam soluções de AI rápidas, escaláveis e acessíveis. O Gemini 2.5 Flash pode processar até 1 milhão de tokens em um único contexto, permitindo-lhe lidar com documentos ou datasets extremamente grandes. O Gemini 2.5 Flash é otimizado para aplicativos em tempo real e de alto volume, como chatbots, extração de dados, tradução e análise de documentos. Saiba mais sobre o Gemini 2.5 Flash.
Assim como outros grandes modelos de linguagem, a saída do Gemini 2.5 Flash pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Alibaba Cloud Qwen3.5 122B A10B
Visualização
O modelo Qwen3.5 122B A10B está em Visualização Pública.
Nome do serviço de modelo : system.ai.qwen35-122b-a10b
Entradas compatíveis : texto
Qwen3.5 122B A10B é um modelo de raciocínio híbrido Mixture-of-Experts (MoE) construído e treinado pela Alibaba Cloud, com 122 bilhões de parâmetros totais e 10 bilhões de parâmetros ativos por inferência. O modelo suporta uma janela de contexto de 256K e até 8.000 tokens de saída, e oferece forte desempenho em raciocínio, codificação e tarefas agentivas. Como um modelo apenas de raciocínio, o Qwen3.5 122B A10B sempre raciocina antes de responder, e o raciocínio não pode ser desabilitado.
Assim como em outros grandes modelos de linguagem, a saída do Qwen3.5 122B A10B pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Alibaba Cloud Qwen3-Embedding-0.6B
Visualização
O modelo Qwen3-Embedding-0.6B está em Visualização Pública.
Nome do serviço de modelo : system.ai.qwen3-embedding-0-6b
Entradas compatíveis : texto
Qwen3-Embedding-0.6B é um modelo de incorporação de texto compacto com ~600M parâmetros, projetado para tarefa semântica como recuperação, pesquisa de similaridade, clusters e classificação. Ele codifica texto em vetores densos que representam o significado em vez da forma superficial.
O modelo oferece suporte a mais de 100 idiomas (incluindo código) e lida com contextos longos de até ~32K tokens, tornando-o adequado para incorporar documentos longos. Gera embeddings com dimensionalidade configurável de até 1.024 e é sensível a instruções, permitindo o direcionamento específico da tarefa por meio de prompts.
Desenvolvido com base em um codificador transformador e ajustado especificamente para a geração de incorporações, o Qwen3-Embedding-0.6B equilibra a qualidade da incorporação com a inferência eficiente.
Modelos de embedding são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). Qwen3-Embedding-0.6B pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.
Alibaba Cloud Qwen3-Next 80B A3B Instruct
Visualização
O modelo Qwen3-Next 80B A3B Instruct está em visualização pública.
Nome do serviço de modelo : system.ai.qwen3-next-80b-a3b-instruct
Entradas compatíveis : texto
Qwen3-Next-80B-A3B-Instruct é um modelo de linguagem grande altamente eficiente otimizado para tarefas de seguimento de instruções, construído e treinado pela Alibaba Cloud. Este modelo foi projetado para lidar com contextos ultralongos e se destaca em fluxos de trabalho de várias etapas, geração aumentada por recuperação e aplicativos empresariais que exigem saídas determinísticas com alta taxa de transferência.
Assim como outros grandes modelos de linguagem, a saída do Qwen3-Next 80B A3B Instruct pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
OpenAI GPT OSS 120B
Nome do serviço de modelo : system.ai.gpt-oss-120b
Entradas compatíveis : texto
GPT OSS 120B é um modelo de raciocínio de ponta com cadeia de pensamento e níveis de esforço de raciocínio ajustáveis, construído e treinado pela OpenAI. É o modelo principal de código aberto da OpenAI e possui o recurso de uma janela de contexto de 128K tokens. O modelo foi desenvolvido para tarefas de raciocínio de alta qualidade.
Assim como outros grandes modelos de linguagem, a saída do GPT OSS 120B pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
OpenAI GPT OSS 20B
Nome do serviço de modelo : system.ai.gpt-oss-20b
Entradas compatíveis : texto
GPT OSS 20B é um modelo de raciocínio leve de última geração, construído e treinado pela OpenAI. Este modelo possui uma janela de contexto de 128 mil tokens e se destaca em copilotos em tempo real e tarefas de inferência em lotes.
Assim como outros grandes modelos de linguagem, a saída do GPT OSS 20B pode omitir alguns fatos e ocasionalmente produzir informação falsa. A Databricks recomenda usar a geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Google Gemma 3 12B
Consulte Termos aplicáveis ao modelo para os termos da Gemma 3 e a Política de Uso Aceitável.
Nome do serviço de modelo : system.ai.gemma-3-12b
Entradas compatíveis : texto, imagem
Gemma 3 12B é um modelo de linguagem multimodal e de visão de 12 bilhões de parâmetros desenvolvido pelo Google como parte da família Gemma 3. Gemma 3 possui um contexto de até 128K tokens e oferece suporte multilíngue para mais de 140 idiomas. Este modelo é projetado para lidar com entradas de texto e imagem e gerar saídas de texto, e é otimizado para casos de uso de diálogo, geração de texto e tarefas de compreensão de imagem, incluindo resposta a perguntas.
Assim como outros grandes modelos de linguagem, a saída do Gemma 3 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Meta Llama 4 Maverick
- Consulte Termos de modelo aplicáveis para a Licença da Comunidade Llama 4 e a Política de Uso Aceitável.
- Meta Llama 4 Maverick será descontinuado em 9 de março de 2026 para pagamento por tokens e em 9 de junho de 2026 para Taxa de transferência provisionada. Consulte Modelos descontinuados para o modelo de substituição recomendado e orientação sobre como migrar durante a descontinuação.
Nome do serviço de modelo : system.ai.llama-4-maverick
Entradas compatíveis : texto, imagem
Llama 4 Maverick é um modelo de linguagem grande e de última geração construído e treinado pela Meta. É o primeiro da família de modelos Llama a usar uma arquitetura de mistura de especialistas para eficiência de compute. Llama 4 Maverick oferece suporte a vários idiomas e é otimizado para casos de uso de compreensão precisa de imagem e texto. Saiba mais sobre o Llama 4 Maverick.
Assim como outros grandes modelos de linguagem, a saída do Llama 4 pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Meta Llama 3.3 70B Instruct
Nome do serviço de modelo : system.ai.meta-llama-3-3-70b-instruct
Entradas compatíveis : texto
O Meta-Llama-3.3-70B-Instruct é um modelo de linguagem grande e de ponta com um contexto de 128.000 tokens que foi construído e treinado pela Meta. O modelo oferece suporte a vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.3.
Assim como outros grandes modelos de linguagem, a saída do Llama-3 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Anthropic Claude Haiku 4.5
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-haiku-4-5
Entradas compatíveis : texto, imagem
Claude Haiku 4.5 é o modelo mais rápido e econômico da Anthropic, oferecendo qualidade de codificação quase inovadora com velocidade e eficiência excepcionais. Ele se destaca em aplicativos de tempo real e baixa latência, incluindo assistentes de chat, agentes de atendimento ao serviço, pair programming e prototipagem rápida. Este modelo é ideal para implantações de produção preocupadas com custos e sistemas agentivos que exigem assistência responsiva de IA.
Assim como outros grandes modelos de linguagem, a saída do Claude Haiku 4.5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Sonnet 4.6
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-sonnet-4-6
Entradas compatíveis : texto, imagem
Claude Sonnet 4.6 é o modelo híbrido de raciocínio mais avançado da Anthropic. Ele oferece dois modos: respostas quase instantâneas e pensamento estendido para um raciocínio mais aprofundado com base na complexidade da tarefa. Claude Sonnet 4.6 especializa-se em aplicações que exigem um equilíbrio entre taxa de transferência prática e pensamento avançado, como agentes de atendimento ao cliente, fluxos de trabalho de codificação de produção e geração de conteúdo em escala.
Assim como outros grandes modelos de linguagem, a saída do Claude Sonnet 4.6 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda usar a geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Sonnet 4,5
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-sonnet-4-5
Entradas compatíveis : texto, imagem
Claude Sonnet 4.5 é o modelo de raciocínio híbrido mais avançado da Anthropic. Ele oferece dois modos: respostas quase instantâneas e pensamento estendido para um raciocínio mais aprofundado com base na complexidade da tarefa. Claude Sonnet 4.5 é especializado em aplicações que exigem um equilíbrio entre taxa de transferência prática e pensamento avançado, como agentes de atendimento ao cliente, fluxos de trabalho de codificação de produção e geração de conteúdo em escala.
Assim como outros grandes modelos de linguagem, a saída do Claude Sonnet 4.5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Fable 5
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Para Claude Fable 5, as instruções e respostas são retidas por 30 dias para fins de confiança e segurança. Esses dados são processados por sistemas de segurança automatizados e podem, em certos casos, ser sinalizados para revisão humana. Os dados são excluídos automaticamente após 30 dias, exceto em caso de investigação de segurança ou requisitos legais para reter os dados por mais de 30 dias. Anthropic é um subprocessador limitado para este propósito de retenção de segurança.
Workspaces que não são compatíveis com este período de retenção de dados podem ver o serviço de modelo, mas não podem chamá-lo.
Nome do serviço de modelo : system.ai.claude-fable-5
Entradas compatíveis : texto
Claude Fable 5 é um modelo da classe Mythos da Anthropic projetado para trabalho de conhecimento autônomo e codificação. Com salvaguardas robustas integradas, ele pode lidar com tarefas de longa duração, complexas e assíncronas com menos necessidade de verificações humanas do que os modelos anteriores, o que o torna adequado para fluxos de trabalho agênticos que exigem foco sustentado em contextos estendidos.
Assim como outros grandes modelos de linguagem, a saída do Claude Fable 5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Opus 4.8
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-opus-4-8
Entradas compatíveis : texto, imagem
O Claude Opus 4.8 é o modelo de raciocínio híbrido mais capaz da Anthropic, construído sobre a série Opus com melhorias adicionais na precisão, eficiência e capacidades de raciocínio. Este modelo se destaca em extração complexa e tarefas de raciocínio agêntico com suporte a imagens, tornando-o ideal para aplicações empresariais que exigem análise profunda, compreensão de documentos e fluxos de trabalho sofisticados e em várias etapas.
Assim como outros grandes modelos de linguagem, a saída do Claude Opus 4.8 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Opus 4.7
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-opus-4-7
Entradas compatíveis : texto, imagem
O Claude Opus 4.7 é o modelo de raciocínio híbrido mais capaz da Anthropic, avançando a série Opus com precisão, eficiência e capacidades de visão aprimoradas. Este modelo oferece melhor desempenho em tarefas complexas de extração e raciocínio agêntico, usando menos tokens de saída do que seu antecessor. O Claude Opus 4.7 possui o recurso de uma janela de contexto de 1 milhão de tokens e suporte aprimorado à resolução de imagem, tornando-o ideal para aplicativos corporativos que exigem análise aprofundada, compreensão de documentos e fluxos de trabalho sofisticados de várias etapas.
Assim como outros grandes modelos de linguagem, a saída do Claude Opus 4.7 pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Opus 4.6
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-opus-4-6
Entradas compatíveis : texto, imagem
O Claude Opus 4.6 é o modelo de raciocínio híbrido mais capaz da Anthropic, com recursos de pensamento adaptativos. Este modelo introduz um novo nível de esforço máximo para as tarefas mais exigentes, com esforço alto definido como o default para desempenho ideal. O Claude Opus 4.6 se destaca em raciocínio complexo, análise profunda, geração de código, pesquisa e fluxos de trabalho sofisticados em várias etapas. Ele possui o recurso de uma janela de contexto de 1 milhão de tokens, tornando-o ideal para aplicações empresariais que exigem tanto análise extensa quanto saídas abrangentes.
Assim como outros grandes modelos de linguagem, a saída do Claude Opus 4.6 pode omitir alguns fatos e ocasionalmente produzir informações falsas. A Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Opus 4.5
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-opus-4-5
Entradas compatíveis : texto, imagem
Claude Opus 4.5 é o modelo de raciocínio híbrido mais capaz da Anthropic, construído para as tarefas mais complexas que exigem análise profunda e pensamento estendido. Este modelo combina poderosas capacidades de uso geral com raciocínio avançado, destacando-se na geração de código, pesquisa, criação de conteúdo e fluxos de trabalho agênticos sofisticados de várias etapas. Claude Opus 4.5 oferece suporte a entradas de texto e visão com uma janela de contexto de 200 mil tokens, tornando-o ideal para aplicativos empresariais que exigem amplitude e profundidade de compreensão.
Assim como outros grandes modelos de linguagem, a saída do Claude Opus 4.5 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Sonnet 4
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-sonnet-4
Entradas compatíveis : texto, imagem
Claude Sonnet 4 é um modelo de raciocínio híbrido e de última geração construído e treinado pela Anthropic. Este modelo oferece dois modos: respostas quase instantâneas e raciocínio estendido para um raciocínio mais profundo com base na complexidade da tarefa. O Claude Sonnet 4 é otimizado para várias tarefas, como desenvolvimento de código, análise de conteúdo em larga escala e desenvolvimento de aplicativos de agente.
Assim como outros grandes modelos de linguagem, a saída do Claude Sonnet 4 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
Anthropic Claude Opus 4.1
Os clientes são responsáveis por garantir sua compliance com os termos da política de uso da Anthropic.
Nome do serviço de modelo : system.ai.claude-opus-4-1
Entradas compatíveis : texto, imagem
Claude Opus 4.1 é um modelo de raciocínio híbrido de última geração construído e treinado pela Anthropic. Este modelo de linguagem grande de uso geral foi projetado para raciocínio complexo e aplicações do mundo real em escala empresarial. Ele suporta entrada de texto e imagem, com uma janela de contexto de 200K tokens e capacidade de saída de 32K tokens. Este modelo se destaca em tarefas como geração de código, pesquisa e criação de conteúdo, e fluxos de trabalho de agentes de várias etapas sem intervenção humana constante.
Assim como outros grandes modelos de linguagem, a saída do Claude Opus 4.1 pode omitir alguns fatos e ocasionalmente produzir informações falsas. O Databricks recomenda o uso de geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.
Este serviço de modelo é hospedado pelo Databricks dentro do perímetro de segurança do Databricks.
GTE Large (inglês)
Nome do serviço de modelo : system.ai.gte-large-en
Entradas compatíveis : texto
General Text Embedding (GTE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em índices vetoriais para LLMs, e para tarefa como recuperação, classificação, resposta a perguntas, clusters ou busca semântica. Este serviço de modelo atende à versão em inglês do modelo e não gera embeddings normalizados.
Modelos de embedding são especialmente eficazes quando usados em conjunto com LLMs para casos de uso de geração aumentada de recuperação (RAG). GTE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.