As melhores práticas para a excelência operacional

Este artigo aborda as melhores práticas de excelência operacional, organizadas por princípios arquiteturais listados nas seções a seguir.

1. Otimize os processos de criação e lançamento

Criar uma equipe de operações dedicada à Lakehouse

Uma prática recomendada comum é ter uma equipe de operações de plataforma para permitir que as equipes de dados trabalhem em uma ou mais plataformas de dados. Essa equipe é responsável por criar modelos e práticas recomendadas internamente. Eles fornecem ferramentas - por exemplo, para automação da infraestrutura e acesso ao autosserviço - e garantem que os requisitos de segurança e compliance sejam atendidos. Isso coloca o ônus de proteger os dados da plataforma em uma equipe central, permitindo que as equipes distribuídas se concentrem em trabalhar com dados e gerar novas percepções.

Use o gerenciamento de código-fonte corporativo (SCM)

O gerenciamento de código-fonte (SCM) ajuda os desenvolvedores a trabalhar com mais eficiência, o que pode levar a uma velocidade de lançamento mais rápida e a custos de desenvolvimento mais baixos. Ter uma ferramenta que ajude a rastrear alterações, manter a integridade do código, detectar bugs e reverter para versões anteriores é um componente importante de sua arquitetura geral de soluções.

Databricks Git permitem que os usuários armazenem o Notebook ou outros arquivos em um repositório Git, oferecendo recursos como clonagem de um repositório, commit e pushing, pull, gerenciamento de ramificações e visualização de diferenças de arquivos. Use as pastas Git para melhor visibilidade e acompanhamento do código.

Padronize os processos de DevOps (CI/CD)

integração contínua (CI) e entrega contínua (CD) (CI/CD) refere-se ao desenvolvimento e implantação do software em ciclos curtos e frequentes usando um pipeline automatizado. Embora esse não seja um processo novo, tendo sido onipresente na engenharia de software tradicional por décadas, ele está se tornando um processo cada vez mais necessário para as equipes de engenharia de dados e ciência de dados. Para que o produto de dados seja valioso, ele deve ser entregue em tempo hábil. Além disso, os consumidores devem ter confiança na validade dos resultados desses produtos. Ao automatizar o processo de criação, teste e implantação de código, as equipes de desenvolvimento podem fornecer versões com mais frequência e confiabilidade do que os processos manuais que ainda dominam muitas equipes de engenharia de dados e ciência de dados. Consulte O que é CI/CD na Databricks?

Para obter mais informações sobre as práticas recomendadas para o desenvolvimento de código usando as pastas Databricks Git , consulte as técnicas deCI/CD com as pastas Git e Databricks Git (Repos). Juntamente com o Databricks REST API, o senhor pode criar processos de implantação automatizados usando GitHub Actions, Azure DevOps pipeline ou Jenkins Job.

Padronizar os processos de MLOps

MLOps Os processos fornecem reprodutibilidade de ML pipelines, permitindo uma colaboração mais estreita entre as equipes de dados, reduzindo conflitos com devops e IT e acelerando a velocidade de lançamento. Como muitos modelos são usados para conduzir decisões de negócios key, a padronização dos processos de MLops garante que os modelos sejam desenvolvidos, testados e implantados de forma consistente e confiável.

Criar e implantar modelos ML é complexo. Há muitas opções disponíveis para alcançar esse objetivo, mas pouco em termos de padrões bem definidos. Como resultado, nos últimos anos, vimos o surgimento de machine learning operações (MLOps). MLOps é um conjunto de processos e automação para gerenciar modelos, dados e códigos para melhorar a estabilidade do desempenho e a eficiência de longo prazo em sistemas de ML. Ele abrange a preparação de dados, a análise exploratória de dados (EDA), a engenharia de recursos, o treinamento de modelos, a validação de modelos, a implantação e o monitoramento.

MLOps na plataforma Databricks pode ajudá-lo a otimizar o desempenho e a eficiência de longo prazo do seu sistema machine learning (ML):

Lembre-se sempre de seus objetivos de negócios: assim como o objetivo principal do ML em uma empresa é permitir decisões e produtos data-driven , o objetivo principal do MLOps é garantir que esses aplicativos data-driven permaneçam estáveis e atualizados e continuar a ter impactos positivos nos negócios. Ao priorizar o trabalho técnico em MLOps, considere o impacto nos negócios: ele permite novos casos de uso de negócios? Isso melhora a produtividade das equipes de dados? Reduz custos ou riscos operacionais?
O senhor pode gerenciar os modelos ML com uma ferramenta especializada, mas aberta: O senhor pode usar o MLflow - projetado para o ciclo de vida do modelo ML - para rastrear e gerenciar os modelos ML. Consulte MLflow para obter informações sobre o ciclo de vida do agente AI e do modelo ML .
Implemente MLOps de maneira modular: como em qualquer aplicativo de software, a qualidade do código é fundamental para um aplicativo de ML. O código modularizado permite o teste de componentes individuais e reduz as dificuldades com futura refatoração de código. Defina passos claros (como treinamento, avaliação ou implantação), superpassos (como pipeline de treinamento para implantação) e responsabilidades para esclarecer a estrutura modular de seu aplicativo de ML.

Isso é descrito em detalhes no ebook da Databricks The Big Book of MLOps.

Definir a estratégia de isolamento do ambiente

Quando uma organização utiliza uma plataforma de dados como o Databricks, muitas vezes há a necessidade de ter limites de isolamento de dados entre ambientes (como desenvolvimento e produção) ou entre unidades operacionais da organização.

Os padrões de isolamento podem variar de acordo com sua organização, mas normalmente incluem as seguintes expectativas:

Os usuários só podem obter acesso aos dados com base em regras de acesso especificadas.
Os dados podem ser gerenciados apenas por pessoas ou equipes designadas.
Os dados são separados fisicamente no armazenamento.
Os dados podem ser acessados somente em ambientes designados.

Em Databricks, o workspace é o principal ambiente de processamento de dados e há vários cenários em que o espaço de trabalho separado melhora a configuração geral, por exemplo:

Isole diferentes unidades de negócios com seu próprio espaço de trabalho para evitar o compartilhamento do administrador do workspace e para garantir que nenhum ativo no Databricks seja compartilhado involuntariamente entre as unidades de negócios.
Isolar ambientes de ciclo de vida de desenvolvimento de software (como desenvolvimento, preparação e produção). Por exemplo, um workspace de produção separado permite que o senhor teste novas configurações do workspace antes de aplicá-las à produção. Ou o ambiente de produção pode exigir configurações workspace mais rigorosas do que o ambiente de desenvolvimento. Se o senhor precisar implantar ambientes de desenvolvimento, preparação e produção em redes virtuais diferentes, também precisará de espaços de trabalho diferentes para os três ambientes.
Dividir o espaço de trabalho para superar as limitações de recurso: cloud account/inscription tem limitações de recurso. Dividir o espaço de trabalho em diferentes inscrições/contas é uma maneira de garantir que haja recursos suficientes disponíveis para cada workspace. Além disso, o espaço de trabalho do Databricks também tem limitações de recurso. A divisão do espaço de trabalho garante que as cargas de trabalho em cada workspace sempre tenham acesso ao conjunto completo de recursos.

No entanto, há algumas desvantagens no espaço de trabalho compartilhado que também devem ser consideradas:

Notebook A colaboração não funciona em todo o espaço de trabalho.

Se o senhor quiser separar o espaço de trabalho para desenvolvimento, preparação e produção e separar as unidades de negócios por espaço de trabalho, considere o limite do número de espaços de trabalho.

Para espaços de trabalho múltiplos, tanto a configuração quanto a manutenção precisam ser totalmente automatizadas (por Terraform, ARM, REST API, ou outros meios). Isso é especialmente importante para fins de migração.
Se cada workspace precisar ser protegido na camada de rede (por exemplo, para proteger contra a exfiltração de dados), a infraestrutura de rede necessária pode ser muito cara, especialmente para um grande número de espaços de trabalho.

É importante encontrar um equilíbrio entre a necessidade de isolamento e a necessidade de colaboração e o esforço necessário para mantê-la.

Definir a estratégia de catálogo para sua empresa

Juntamente com uma estratégia de isolamento ambiental, as organizações precisam de uma estratégia para estruturar e separar metadados e dados. Os dados, inclusive informações de identificação pessoal, de pagamento ou de saúde, têm um alto risco potencial e, com a ameaça cada vez maior de violações de dados, é importante separar e proteger os dados confidenciais, independentemente da estratégia organizacional que o senhor escolher. Separe seus dados confidenciais dos dados não confidenciais, tanto lógica quanto fisicamente.

Uma organização pode exigir que determinados tipos de dados sejam armazenados em contas ou compartimentos específicos em seu site cloud tenant. O metastore do Unity Catalog permite que os metadados sejam estruturados por seu namespace catalog > schema > tables/views/volumes de três níveis, com locais de armazenamento configurados no nível do metastore, do catálogo ou do esquema para atender a esses requisitos.

Os requisitos organizacionais e de compliance muitas vezes determinam que o senhor mantenha determinados dados apenas em determinados ambientes. O senhor também pode querer manter os dados de produção isolados dos ambientes de desenvolvimento ou garantir que determinados conjuntos de dados e domínios nunca sejam mesclados. Em Databricks, o workspace é o principal ambiente de computação e os catálogos são o principal domínio de dados. Usando o metastore Unity Catalog, os administradores e proprietários de catálogos podem vincular catálogos a espaços de trabalho específicos. Esses vínculos com reconhecimento de ambiente ajudam a garantir que apenas determinados catálogos estejam disponíveis em um workspace, independentemente das permissões específicas de objetos de dados concedidas a um usuário.

Para uma discussão completa sobre esses tópicos, consulte as práticas recomendadas do Unity Catalog

2. Automatize implantações e cargas de trabalho

Usar infraestrutura como código (IaC) para implementações e manutenção

A infraestrutura como código (IaC) permite que os desenvolvedores e as equipes de operações gerenciem, monitorem e provisionem recursos automaticamente, em vez de configurar manualmente dispositivos de hardware, sistemas operacionais, aplicativos e serviços.

O HashiCorp Terraform é uma ferramenta popular de código aberto para criar uma infraestrutura cloud segura e previsível em vários provedores cloud. O provedorDatabricks Terraform gerencia o espaço de trabalho Databricks e a infraestrutura associada cloud usando uma ferramenta flexível e poderosa. O objetivo do provedor Databricks Terraform é dar suporte a todos os Databricks REST APIs, apoiando a automação dos aspectos mais complicados de implantar e gerenciar suas plataformas de dados. O provedor Databricks Terraform é a ferramenta recomendada para implantar e gerenciar de forma confiável o clusters e o Job, provisionar o espaço de trabalho Databricks e configurar o acesso aos dados.

Padronizar as configurações de computação

A padronização dos ambientes de computação garante que os mesmos software, biblioteca e configurações sejam usados em todos os ambientes. Essa consistência facilita a reprodução de resultados, a depuração de problemas e a manutenção de sistemas em vários ambientes. Com ambientes padronizados, as equipes podem economizar tempo e recursos, eliminando a necessidade de configurar e instalar ambientes do zero. Isso também reduz o risco de erros e inconsistências que podem ocorrer durante a configuração manual. A padronização também permite a implementação de políticas e práticas de segurança consistentes em todos os ambientes. Isso pode ajudar as organizações a gerenciar melhor os riscos e a cumprir os requisitos regulamentares. Por fim, a padronização pode ajudar as organizações a gerenciar melhor os custos, reduzindo o desperdício e otimizando a utilização de recursos.

A padronização abrange tanto a configuração do ambiente quanto o gerenciamento contínuo de recursos. Para uma configuração consistente, a Databricks recomenda o uso da infraestrutura como código. Para garantir que o recurso compute lançado ao longo do tempo seja configurado de forma consistente, use as políticascompute . Databricks workspace Os administradores podem limitar os privilégios de criação do compute de um usuário ou grupo com base em um conjunto de regras de política. Eles podem aplicar as definições de configuração do Spark e aplicar as instalações de biblioteca com escopo cluster. O senhor também pode usar as políticas do compute para definir o tamanho da camiseta clusters (S, M, L) para projetos como um ambiente de trabalho padrão.

Usar fluxo de trabalho automatizado para Job

A configuração de um fluxo de trabalho automatizado para o Job pode ajudar a reduzir tarefas manuais desnecessárias e melhorar a produtividade por meio do processo de criação e implantação do Job no site DevOps. A Data Intelligence Platform oferece duas maneiras de fazer isso:

Empregos na Databricks:

Databricks Jobs orquestra o processamento de dados, machine learning, e o pipeline analítico na Databricks Data Intelligence Platform. É um serviço de orquestração totalmente gerenciado e integrado à plataforma Databricks:
- Databricks Os trabalhos são uma forma de executar seus aplicativos de processamento de dados e análise em um Databricks workspace. Seu trabalho pode ser uma única tarefa ou um fluxo de trabalho grande, com várias tarefas e dependências complexas. Databricks gerenciar a tarefa orquestração, cluster gerenciamento, monitoramento e relatório de erros para todo o seu trabalho.
- Delta Live Tables é uma estrutura declarativa para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações que deseja realizar em seus dados e Delta Live Tables gerenciar tarefa orquestração, cluster gerenciamento, monitoramento, qualidade de dados e tratamento de erros.

Orquestradores externos:

O abrangente Databricks REST API é usado por mecanismos externos de fluxo de trabalho para orquestrar Databricks ativo, Notebook e Job. Veja, por exemplo, o Apache Airflow.

Recomendamos o uso do Databricks Jobs para todas as dependências de tarefas no Databricks e, se necessário, a integração desses fluxos de trabalho encapsulados no orquestrador externo.

Use a ingestão de arquivos automatizada e orientada por eventos

Orientado por eventos (vs. A ingestão de arquivos orientada por programas tem vários benefícios, incluindo eficiência, maior atualização de dados e ingestão de dados em tempo real. A execução de um Job somente quando ocorre um evento garante que o senhor não desperdice recursos, o que economiza dinheiro.

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem. Ele pode ingerir vários formatos de arquivo, como JSON, CSV, PARQUET, AVRO, ORC, TEXT e BINARYFILE. Com uma pasta de entrada no armazenamento cloud, o Auto Loader processa automaticamente os novos arquivos à medida que eles chegam.

Para entradas únicas, considere usar o comando `COPY INTO` em vez disso.

Use ETL frameworks para pipeline de dados

Embora seja possível executar a ETL tarefa manualmente, há muitas vantagens em usar uma estrutura. Uma estrutura traz consistência e repetibilidade ao processo de ETL. Ao fornecer funções e ferramentas pré-construídas, uma estrutura pode automatizar tarefas comuns, economizando tempo e recursos. As estruturas de ETL podem lidar com grandes volumes de dados e podem ser facilmente ampliadas ou reduzidas conforme necessário. Isso facilita o gerenciamento de recursos e a resposta às necessidades comerciais em constante mudança. Muitas estruturas incluem recursos integrados de tratamento e registro de erros, o que facilita a identificação e a resolução de problemas. E, muitas vezes, incluem verificações e validações da qualidade dos dados para garantir que eles atendam a determinados padrões antes de serem carregados no data warehouse ou no data lake.

Delta Live Tables é uma estrutura declarativa para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações que deseja realizar nos dados e o site Delta Live Tables cuida da solicitação de tarefas, do gerenciamento do cluster, do monitoramento, da qualidade dos dados e do tratamento de erros.

Com Delta Live Tables, o senhor pode definir um pipeline de dados de ponta a ponta em SQL ou Python: Especifique a fonte de dados, a lógica de transformações e o estado de destino dos dados. Delta Live Tables mantém as dependências e determina automaticamente a infraestrutura na qual executar o Job.

Para gerenciar a qualidade dos dados, o Delta Live Tables monitora as tendências de qualidade dos dados ao longo do tempo e evita que dados incorretos entrem nas tabelas por meio de verificações de validação e integridade com políticas de erro predefinidas. Veja o que é Delta Live Tables?

Siga a abordagem de código aprimorado para cargas de trabalho de ML

O código e os modelos geralmente progridem de forma assíncrona nos estágios de desenvolvimento do software. Há duas maneiras de conseguir isso:

código implantado: Um projeto ML é codificado no ambiente de desenvolvimento e, em seguida, esse código é movido para o ambiente de preparação, onde é testado. Após o teste bem-sucedido, o código do projeto é implantado no ambiente de produção, onde é executado.
modelo implantado: O treinamento do modelo é executado no ambiente de desenvolvimento. O artefato do modelo produzido é então movido para o ambiente de preparação para verificações de validação do modelo, antes da implantação do modelo no ambiente de produção.

Consulte Padrões de implantação de modelo.

Databricks recomenda uma abordagem de código implantado para a maioria dos casos de uso. As principais vantagens desse modelo são:

Isso se encaixa no fluxo de trabalho tradicional da engenharia de software, usando ferramentas familiares como sistemas Git e CI/CD.
Ele suporta o retreinamento automatizado em um ambiente bloqueado.
Ele requer apenas que o ambiente de produção tenha acesso de leitura aos dados de treinamento prod.
Ele oferece controle total sobre o ambiente de treinamento, ajudando a simplificar a reprodutibilidade.
Ele permite que a equipe de ciência de dados use código modular e testes iterativos, ajudando na coordenação e no desenvolvimento de projetos maiores.

Isso é descrito em detalhes no ebook da Databricks The Big Book of MLOps.

Use um registro de modelo para desacoplar o código e o ciclo de vida do modelo

Como os ciclos de vida dos modelos não correspondem um a um aos ciclos de vida dos códigos, o site Unity Catalog permite que o ciclo de vida completo dos modelos ML seja gerenciado em sua versão hospedada do site MLflow Model Registry. Os modelos em Unity Catalog estendem os benefícios do Unity Catalog aos modelos ML, incluindo controle de acesso centralizado, auditoria, linhagem e descoberta de modelos em todo o espaço de trabalho. Os modelos no Unity Catalog são compatíveis com o cliente MLflow Python de código aberto.

Automatizar ML acompanhamento de experimentos

acompanhamento ML experimentos é o processo de salvar metadados relevantes para cada experimento e organizar os experimentos. Esses metadados incluem entradas/saídas de experimentos, parâmetros, modelos e outros artefatos. O objetivo do acompanhamento de experimentos é criar resultados reproduzíveis em todas as etapas do processo de desenvolvimento do modelo ML. A automação desse processo facilita o dimensionamento do número de experimentos e garante a consistência dos metadados capturados em todos os experimentos.

Databricks O Autologging é uma solução sem código que amplia o registro automático do MLflow para fornecer acompanhamento automático de experimentos para sessões de treinamento do machine learning no Databricks. Databricks O autologging captura automaticamente os parâmetros do modelo, as métricas, os arquivos e as informações de linhagem quando o senhor ensina modelos com treinamento de execução registrados em MLflow acompanhamento de execução.

Reutilize a mesma infraestrutura para gerenciar ML pipelines

Os dados usados para ML pipelines normalmente são provenientes das mesmas fontes que os dados usados para outros pipelines de dados. ML e o pipeline de dados são semelhantes, pois ambos preparam dados para análise do usuário comercial ou treinamento de modelos. Ambos também precisam ser dimensionáveis, seguros e monitorados adequadamente. Em ambos os casos, a infraestrutura usada deve dar suporte a essas atividades.

Use o provedor Terraform da Databricks para automatizar as implementações de ambientes de ML. ML requer infraestrutura implantada, como Job de inferência, endpoint de atendimento e Job de caracterização. Todos os ML pipelines podem ser automatizados como Jobs, e muitos ML pipelines centrados em dados podem usar os mais especializados Auto Loader para ingerir imagens e outros dados e Delta Live Tables para compute recurso ou para monitorar métricas.

Certifique-se de usar o modelo servindo para a implementação de nível empresarial dos modelos ML.

Utilizar o gerenciamento declarativo para dados complexos e projetos de ML

As estruturas declarativas do MLOps permitem que as equipes definam os resultados desejados em termos de alto nível e deixem o sistema cuidar dos detalhes da execução, simplificando a implantação e o dimensionamento dos modelos de ML. Essas estruturas oferecem suporte à integração e à implementação contínuas, automatizam os testes e o gerenciamento da infraestrutura e garantem a governança do modelo e compliance, acelerando o tempo de lançamento no mercado e aumentando a produtividade em todo o ciclo de vida do ML.

Databricks ativo Bundles (DABs) são uma ferramenta para simplificar o desenvolvimento de projetos complexos de análise de dados e ML para a plataforma Databricks. Os bundles facilitam a gerenciar projetos complexos durante o desenvolvimento ativo, fornecendo recursos CI/CD em seu fluxo de trabalho de desenvolvimento software usando uma sintaxe YAML única, concisa e declarativa. Ao usar pacotes para automatizar o teste, a implementação e o gerenciamento de configuração do seu projeto, o senhor pode reduzir os erros e, ao mesmo tempo, promover as práticas recomendadas de software em toda a sua organização como projetos de modelo.

3. capacidade de gerenciar e cotas

serviço gerenciado limites e cotas

O gerenciamento de limites e cotas de serviço é importante para manter o bom funcionamento da infraestrutura e evitar custos inesperados. Todo serviço lançado em cloud deve levar em conta os limites account, como limites de taxa de acesso, número de instâncias, número de usuários e requisitos de memória. Para seu provedor cloud, verifique os limites docloud . Antes de projetar uma solução, esses limites devem ser compreendidos.

Especificamente, para a plataforma Databricks, existem diferentes tipos de limites:

Databricks limites da plataforma: Esses são limites específicos para Databricks recurso. Os limites da plataforma geral estão documentados em limites de recurso.

Unity Catalog limites: Unity Catalog recurso quotas

inscrição/account quotas: A Databricks aproveita o recurso de nuvens para seu serviço. Por exemplo, as cargas de trabalho no Databricks são executadas em clusters, para os quais a plataforma Databricks começa as máquinas virtuais (VM) do provedor de nuvens. Os provedores de nuvens definem cotas de default sobre quantas VMs podem ser iniciadas ao mesmo tempo. Dependendo da necessidade, essas cotas podem precisar ser ajustadas.

Para obter mais detalhes, consulte Cotas de serviço do Amazon EC2.

Da mesma forma, o armazenamento, a rede e outros serviços de nuvem têm limitações que devem ser compreendidas e levadas em conta.

Invista em planejamento de capacidade

O planejamento da capacidade envolve o gerenciamento de cloud recursos, como armazenamento, compute e rede, para manter o desempenho e otimizar os custos. Planeje variações na carga esperada, que podem ocorrer por vários motivos, inclusive mudanças repentinas nos negócios ou até mesmo eventos mundiais. Teste as variações de carga, inclusive as inesperadas, para garantir que suas cargas de trabalho possam escalar. Certifique-se de que todas as regiões possam escalonar o suficiente para suportar a carga total se uma região falhar. Considere:

limitações de tecnologia e serviço e cloud restrições. Ver gerenciar capacidade e cotas.
SLAs para determinar o serviço a ser usado no projeto.
Análise de custo para determinar o quanto de melhoria no aplicativo é obtida se o custo for aumentado. Avalie se o preço vale o investimento.

É importante entender e planejar os eventos de alta prioridade (volume). Se o provisionamento cloud recurso não for suficiente e as cargas de trabalho não puderem ser escalonadas, esses aumentos de volume poderão causar uma interrupção.

4. Configure o monitoramento, os alertas e o registro

Estabelecer processos de monitoramento

O estabelecimento de processos de monitoramento para uma plataforma de dados é fundamental por vários motivos. Os processos de monitoramento permitem a detecção antecipada de problemas, como problemas de qualidade de dados, gargalos de desempenho e falhas no sistema, o que pode ajudar a evitar o tempo de inatividade e a perda de dados. Eles podem ajudar a identificar ineficiências na plataforma de dados e otimizar os custos, reduzindo o desperdício e melhorando a utilização de recursos. compliance Além disso, os processos de monitoramento podem ajudar a garantir o cumprimento dos requisitos regulamentares e fornecer trilhas de auditoria de acesso e uso de dados.

Usar ferramentas nativas e externas para monitorar a plataforma

A Databricks Data Intelligence Platform tem soluções de monitoramento integradas e integra sistemas de monitoramento externos:

Monitoramento da plataforma usando o CloudWatch

A integração do Databricks com o CloudWatch permite métricas derivadas do logs e alerta. O CloudWatch Application percepções ajuda o senhor a descobrir automaticamente os campos contidos no site logs, e o CloudWatch logs percepções fornece uma linguagem de consulta criada especificamente para depuração e análise mais rápidas. Consulte Como monitorar Databricks com o Amazon CloudWatch.

Databricks lakehouse monitoramento

Databricks lakehouse O monitoramento permite que o senhor monitore as propriedades estatísticas e a qualidade dos dados em todas as tabelas do site account. O monitoramento da qualidade dos dados fornece medidas quantitativas para rastrear e confirmar a consistência dos dados ao longo do tempo e ajuda a identificar e alertar os usuários sobre mudanças na distribuição de dados e no desempenho do modelo. O senhor também pode acompanhar o desempenho do modelo do machine learning monitorando as tabelas de inferência que contêm entradas e previsões do modelo.

Consulte view lakehouse despesas de monitoramento para entender o custo do lakehouse monitoramento.

SQL warehouse monitoramento

O monitoramento do SQL warehouse é essencial para entender o perfil da carga ao longo do tempo e gerenciar o SQL warehouse de forma eficiente. Com o SQL warehouse monitoramento, o senhor pode obter view informações, como o número de consultas tratadas pelo warehouse ou o número de clusters alocados ao warehouse.
Databricks SQL alerta

Databricks SQL O alerta executa periodicamente consultas, avalia as condições definidas e envia notificações se uma condição for atendida. O senhor pode configurar o alerta para monitorar seus negócios e enviar notificações quando os dados informados estiverem fora dos limites esperados.

Além disso, o senhor pode criar um alerta Databricks SQL com base em uma métrica de uma tabela de métricas de monitoramento, por exemplo, para ser notificado quando uma estatística sair de um determinado intervalo ou se os dados se desviarem em comparação com a tabela de linha de base.

Auto Loader monitoramento

Auto Loader fornece um SQL API para inspecionar o estado de uma transmissão. Com as funções SQL, o senhor pode encontrar metadados sobre arquivos que foram descobertos por uma transmissão Auto Loader. Consulte monitoramento Auto Loader.

Com a interface do Ouvinte query transmitida Apache Spark, a transmissão do Auto Loader pode ser monitorada ainda mais.
Job monitoramento

Job O monitoramento ajuda o senhor a identificar e resolver problemas em seu Databricks Job, como falhas, atrasos ou gargalos de desempenho. Job O monitoramento fornece percepções sobre o desempenho do trabalho, permitindo que o senhor otimize a utilização dos recursos, reduza o desperdício e melhore a eficiência geral.
Delta Live Tables monitoramento

Um evento log é criado e mantido para cada Delta Live Tables pipeline. O evento log contém todas as informações relacionadas ao pipeline, incluindo auditoria logs, verificações de qualidade de dados, pipeline progresso e linhagem de dados. O senhor pode usar o evento log para rastrear, entender e monitorar o estado do seu pipeline de dados.
transmissão monitoramento

A transmissão é uma das mais importantes técnicas de processamento de dados para ingestão e análise. Ele fornece aos usuários e desenvolvedores recursos de processamento de baixa latência e dados tempo-real para ações analíticas e de acionamento. O Databricks Data Intelligence Platform permite que o senhor monitore as consultas de transmissão estruturada.

ML e monitoramento de AI

O monitoramento do desempenho dos modelos em fluxo de trabalho de produção é um aspecto importante do ciclo de vida dos modelos AI e ML. As tabelas de inferência simplificam o monitoramento e o diagnóstico dos modelos, registrando continuamente as entradas e respostas das solicitações de serviço (previsões) do ponto de extremidade Mosaic AI Model Serving e salvando-as em uma tabela Delta em Unity Catalog. Em seguida, o senhor pode usar todos os recursos da plataforma Databricks, como consultas DBSQL, Notebook e monitoramento de lakehouse para monitorar, depurar e otimizar seus modelos.
- Para modelos personalizados, consulte Tabelas de inferência para monitoramento e depuração de modelos.
- Para modelos externos e cargas de trabalho de Taxa de transferência de provisionamento, consulte Monitorar modelos servidos usando tabelas de inferência habilitadas para AI Gateway.
Para obter mais detalhes sobre o monitoramento servindo modelo, consulte Monitorar a qualidade do modelo e endpoint health.

Monitoramento de segurança

Consulte Segurança, compliance e privacidade - Monitoramento de segurança.
Monitoramento de custos

Consulte Otimização de custos - Monitorar e controlar custos.