Pular para o conteúdo principal

modelos implantados usando modelo específico

Este artigo descreve o modelo de atividade, as soluções Databricks para modelos implantados AI e ML para atendimento em tempo real e inferência de lotes.

O que é servir modelo?

O modelo corporativo fornece uma interface unificada para implantar, governar e consultar modelos AI para inferência de tempo real e lotes. Cada modelo que você oferece está disponível como uma API REST que você pode integrar ao seu aplicativo web ou cliente.

O servindo modelo fornece um serviço altamente disponível e de baixa latência para modelos implantados. O serviço aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Essa funcionalidade usa serverless compute. Consulte a página servindo modelo preços para obter mais detalhes.

O servindo modelo oferece um REST API e MLflow Deployment API unificados para CRUD e tarefa de consulta. Além disso, ele oferece uma única interface de usuário para gerenciar todos os seus modelos e seus respectivos endpoints de atendimento. O senhor também pode acessar modelos diretamente do site SQL usando o AI Functions para facilitar a integração com a analítica fluxo de trabalho.

AI Functions e servindo modelo estão fortemente integrados para vários cenários de inferência. O senhor pode usar qualquer um dos sites AI Functions ou ai-query específicos da tarefa em seu pipeline de inferência de lotes. Se o senhor optar por usar um modelo de pré-provisionamento que seja hospedado e gerenciado por Databricks, não precisará configurar um modelo de serviço endpoint por conta própria.

Veja o guia a seguir para começar:

Modelos que o senhor pode implantar

O servindo modelo suporta inferência de tempo real e lotes para os seguintes tipos de modelos:

  • Modelos personalizados. Esses são os modelos Python pacote no formato MLflow. Eles devem ser registrados no Unity Catalog. Os exemplos incluem os modelos de transformadores scikit-learn, XGBoost, PyTorch e Hugging Face.

  • Modelos de fundação.

    • Modelos de base hospedados pelo Databricks , como o Meta Llama. Esses modelos estão disponíveis usando as APIs do Foundation Model. Esses modelos são arquiteturas de modelos básicos selecionadas que oferecem suporte à inferência otimizada. Modelos básicos, como Meta-Llama-3.3-70B-Instruct e GTE-Large estão disponíveis para uso imediato com preços pay-per-tokens , e as cargas de trabalho que exigem garantias de desempenho e variantes de modelos ajustados podem ser implantadas com o provisionamento Taxa de transferência .
    • Modelos básicos hospedados fora do Databricks , como o GPT-4 da OpenAI. Esses modelos são acessíveis usando modelos externos. O endpoint que atende a esses modelos pode ser controlado de forma centralizada em Databricks, para que o senhor possa simplificar o uso e o gerenciamento de vários provedores de LLM, como OpenAI e Anthropic, em sua organização.
nota

O senhor pode interagir com grandes modelos de linguagem suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo em que o senhor pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu site Databricks workspace.

Por que usar o servindo modelo?

  • Implante e consulte qualquer modelo : o servindo modelo oferece uma interface unificada para que o senhor possa gerenciar todos os modelos em um único local e consultá-los com um único API, independentemente de estarem hospedados em Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.

  • Personalize modelos com segurança usando seus dados privados : Construído sobre uma Plataforma de Inteligência de Dados, o Servindo Modelo simplifica a integração de recursos e embeddings em modelos por meio da integração nativa com o Databricks Feature Store e a Busca Vetorial. Para uma precisão ainda maior e uma melhor compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no modelo de serviço.

  • Administre e monitore modelos : O Serving UI permite que o senhor gerencie centralmente todos os pontos de extremidade do modelo em um único local, inclusive aqueles que são hospedados externamente. O senhor pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando o AI Gateway. Isso permite que o senhor democratize o acesso ao SaaS e aos LLMs abertos dentro da sua organização, ao mesmo tempo em que garante que as proteções adequadas estejam em vigor.

  • Reduza o custo com inferência otimizada e dimensionamento rápido : o site Databricks implementou uma série de otimizações para garantir que o senhor obtenha a melhor taxa de transferência e latência para modelos grandes. O endpoint aumenta ou diminui automaticamente para atender às mudanças na demanda, economizando custos de infraestrutura e otimizando o desempenho da latência. Monitorar os custos do modelo de serviço.

    • Para cargas de trabalho sensíveis à latência ou que envolvam um grande número de consultas por segundo, consulte Otimizar o endpoint do modelo de serviço para produção para obter estratégias de otimização abrangentes. Entre em contato com a equipe da sua account Databricks para garantir que seu workspace esteja habilitado para alta escalabilidade.
  • Traga confiabilidade e segurança para a servindo modelo : a servindo modelo foi projetada para uso em produção com alta disponibilidade e baixa latência e pode suportar mais de 25 mil consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais confidenciais.

nota

A servindo modelo não fornece patches de segurança para imagens de modelos existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com a equipe do Databricks account para obter mais informações.

Requisitos

Habilite o modelo servindo para o seu workspace

Nenhuma passo adicional é necessária para habilitar Model Serving em seu workspace.

Limitações e disponibilidade regional

O modelo privado impõe limites default para garantir um desempenho confiável. Consulte os limites e regiões do modelo disponível. Se você tiver comentários sobre esses limites ou sobre um endpoint em uma região não suportada, entre em contato com a equipe da sua account Databricks .

Proteção de dados no modelo servindo

A Databricks leva a segurança de dados a sério. Databricks entende a importância dos dados que você analisa usando o Servindo Modelo e implementa os seguintes controles de segurança para proteger seus dados.

  • Cada solicitação de cliente à Servindo Modelo é logicamente isolada, autenticada e autorizada.
  • Servindo modelo criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Servindo Modelo não utiliza as entradas do usuário enviadas ao serviço nem as saídas do serviço para ensinar quaisquer modelos ou aprimorar qualquer serviço Databricks .

Para todas as cargas de trabalho do modelo de serviço, Databricks retém logs de construção do contêiner por até trinta (30) dias e os dados de métricas por até quatorze (14) dias.

Para as APIs do Databricks Foundation Model, como parte do fornecimento do serviço, a Databricks pode processar e armazenar temporariamente entradas e saídas para fins de prevenção, detecção e mitigação de abuso ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região que seu workspace por até 30 (trinta) dias e acessíveis apenas para detectar e responder a questões de segurança ou abuso.

O Foundation Model APIs é um serviço designado pela Databricks, o que significa que ele adere aos limites de residência de dados, conforme implementado pelo Databricks Geos.

Recurso adicional