Serviço de modelo com Databricks

Este artigo descreve o Serviço de Modelo do Databricks, incluindo suas vantagens e limitações.

O que é modelo interativo?

O modelo de operação do Databricks fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que pode ser integrada ao seu aplicativo web ou cliente.

O servindo modelo fornece um serviço altamente disponível e de baixa latência para modelos implantados. O serviço aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Essa funcionalidade usa serverless compute. Consulte a página servindo modelo preços para obter mais detalhes.

O modelo oferecido oferece suporte ao serviço:

  • Modelos personalizados. Estes são pacotes de modelos Python no formato MLflow. Eles podem ser cadastrados no Unity Catalog ou no workspace registro de modelo. Os exemplos incluem os modelos de transformadores Scikit-Learn, XGBoost, PyTorch e Hugging Face.

  • Modelos abertos de última geração disponibilizados pelas APIs do Foundation Model. Esses modelos são arquiteturas de modelos básicos selecionadas que suportam inferência otimizada. Modelos básicos, como Llama-2-70B-chat, BGE-Large e Mistral-7B estão disponíveis para uso imediato com preços de pagamento portokens , e cargas de trabalho que exigem garantias de desempenho e variantes de modelo ajustadas podem ser implantadas com provisionamento Taxa de transferência.

  • Modelos externos. Esses são modelos hospedados fora do Databricks. endpoint que atendem modelos externos podem ser governados centralmente e os clientes podem estabelecer limites de taxa e controle de acesso para eles. Os exemplos incluem modelos básicos como GPT-4 da OpenAI, Claude da Anthropic e outros.

Observação

Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs. Esta funcionalidade está disponível no seu workspace do Databricks.

O modelo corporativo oferece uma API REST unificada e uma API de implantação MLflow para CRUD e tarefas de consulta. Além disso, ele fornece uma interface de usuário única para gerenciar todos os seus modelos e seus respectivos endpoint de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração ao fluxo analítico de trabalho.

Para obter uma introdução tutorial sobre como servir modelos personalizados no Databricks, consulte Tutorial: implantar e consultar um modelo personalizado.

Para obter um tutorial sobre como consultar um modelo básico no Databricks, consulte Como consultar LLMs no Databricks.

Por que usar o Serviço de Modelo?

  • implantar e consultar quaisquer modelos: o modelo prático fornece uma interface unificada que permite gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em diversas clouds e provedores.

  • Personalize com segurança os modelos com seus dados privados: Criado em uma Plataforma de Inteligência de Dados, o servindo modelo simplifica a integração de recursos e embeddings em modelos por meio da integração nativa com o Databricks repositório de recursos e Mosaic AI Vector Search. Para aumentar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no servindo modelo.

  • Governar e monitorar modelos: a IU do Serving permite gerenciar centralmente todos endpoint do modelo em um só lugar, incluindo aqueles hospedados externamente. Você pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos. Isso permite que você democratize o acesso ao SaaS e abra LLMs em sua organização, ao mesmo tempo que garante a existência de proteções adequadas.

  • Reduza custos com inferência otimizada e escalonamento rápido: o Databricks implementou uma série de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. O endpoint aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência.

Observação

Para cargas de trabalho que são sensíveis à latência ou que exigem altas consultas por segundo, a servindo modelo oferece otimização de rota no endpoint personalizado da servindo modelo, consulte Configurar otimização de rota no endpoint da servindo.

  • Traga confiabilidade e segurança ao modelo de atividade: o modelo de atividade foi projetado para uso em produção de alta disponibilidade e baixa latência e pode suportar mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por múltiplas camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis.

Requisitos

Habilite o modelo disponível para seu espaço de trabalho

Para usar o modelo de atividade, o administrador da sua account deve ler e aceitar os termos e condições para habilitar compute serverless no console da account .

Observação

Se sua account foi criada após 28 de março de 2022, compute serverless será habilitada por default para seus workspaces.

Se você não for um administrador account , não poderá executar essas passos. Entre em contato com um administrador account se seu workspace precisar de acesso à compute serverless.

  1. Como administrador da conta, acesse a tab de ativação de recursos da página de configurações do console da conta.

  2. Um banner na parte inicio da página solicita que você aceite os termos adicionais. Depois de ler os termos, clique em Aceitar. Se você não vir o banner solicitando a aceitação dos termos, esta passo já foi concluída.

Depois de aceitar os termos, sua account estará habilitada para serverless.

Nenhuma passo adicional é necessária para habilitar Model Serving em seu workspace.

Limitações e disponibilidade da região

O Databricks servindo modelo impõe default limites para garantir um desempenho confiável. Veja servindo modelo limites e regiões. Se o senhor tiver comentários sobre esses limites ou sobre um endpoint em uma região sem suporte, entre em contato com a equipe da Databricks account.

Proteção de dados no modelo de atividade

Databricks leva a segurança dos dados a sério. O Databricks entende a importância dos dados que você analisa usando o modelo autônomo do Databricks e implementa os seguintes controles de segurança para proteger seus dados.

  • Cada solicitação do cliente ao modelo de operação é logicamente isolada, autenticada e autorizada.

  • O modelo funcional do Databricks criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas account pagas, o modelo de atividade do Databricks não usa entradas do usuário enviadas ao serviço ou saídas do serviço para ensinar quaisquer modelos ou melhorar quaisquer serviços do Databricks.

Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, a Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu workspace por até trinta (30) dias e acessíveis apenas para detecção e resposta a questões de segurança ou abuso.