Pular para o conteúdo principal

Práticas recomendadas para governança de dados e AI

Este artigo aborda as práticas recomendadas de governança de dados e AI , organizadas pelos princípios arquitetônicos listados nas seções a seguir.

1. Unificar o gerenciamento de dados e AI

Estabelecer um processo de governança de dados e AI

A governança de dados e AI é o gerenciamento da disponibilidade, usabilidade, integridade e segurança dos dados de uma organização e AI ativo. Ao fortalecer a governança de dados e AI, as organizações podem garantir a qualidade dos ativos que são essenciais para uma análise e tomada de decisões precisas, ajudar a identificar novas oportunidades, melhorar a satisfação do cliente e, por fim, aumentar a receita. Ele ajuda as organizações a cumprir as normas de privacidade de dados e AI e a aprimorar as medidas de segurança, reduzindo o risco de violações de dados e penalidades. A governança eficaz de dados e AI também elimina redundâncias e simplifica a gestão de dados, resultando em economia de custos e maior eficiência operacional.

Uma organização pode querer escolher qual modelo de governança é mais adequado para ela:

  • No modelo de governança centralizada , seus administradores de governança são proprietários da metastore e podem se apropriar de qualquer objeto e conceder e revogar permissões.
  • Em um modelo de governança distribuída , o catálogo ou um conjunto de catálogos é o domínio dos dados. O proprietário desse catálogo pode criar e possuir toda a governança ativa e gerenciar dentro desse domínio. Os proprietários de qualquer domínio podem operar independentemente dos proprietários de outros domínios.

As soluções de governança de dados e AI Unity Catalog estão integradas à Databricks Data Intelligence Platform. Ele oferece suporte a ambos os modelos de governança e ajuda a gerenciar perfeitamente dados estruturados e não estruturados, modelos ML, notebook, painéis e arquivos em qualquer nuvem ou plataforma. As práticas recomendadas do siteUnity Catalog ajudam a implementar a governança de dados e do site AI.

Gerenciar metadados para todos os dados e AI ativo em um só lugar

Os benefícios de gerenciar metadados para todos os ativos em um único local são semelhantes aos benefícios de manter uma única fonte de verdade para todos os seus dados. Isso inclui a redução da redundância de dados, o aumento da integridade dos dados e a eliminação de mal-entendidos devido a diferentes definições ou taxonomias. Também é mais fácil implementar políticas, padrões e regras globais com uma única fonte.

Como prática recomendada, execute o lakehouse em um único account com um Unity Catalog. O Unity Catalog pode gerenciar dados e volumes (arquivos arbitrários), bem como AI ativos, como recurso e modelos AI. O contêiner de nível superior de objetos no Unity Catalog é um metastore. Ele armazena dados ativos (como tabelas e visualizações) e as permissões que regem o acesso a eles. Use um único metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.

O metastore fornece um namespace de três níveis para estruturar dados, volumes e AI ativo:

Databricks recomenda o uso de catálogos para fornecer segregação em toda a arquitetura de informações de sua organização. Muitas vezes, isso significa que os catálogos podem corresponder ao escopo, à equipe ou à unidade de negócios do ambiente de desenvolvimento de software.

Rastreie os dados e a linhagem do site AI para aumentar a visibilidade dos dados

A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. A linhagem de dados descreve as transformações e o refinamento dos dados da fonte ao entendimento. Inclui a captura de todos os metadados e eventos relevantes associados aos dados durante todo o seu ciclo de vida, inclusive a origem do conjunto de dados, quais outros conjuntos de dados foram usados para criá-lo, quem o criou e quando, quais transformações foram realizadas, quais outros conjuntos de dados o utilizam e muitos outros eventos e atributos.

Além disso, quando o senhor treina um modelo em uma tabela em Unity Catalog, é possível rastrear a linhagem do modelo até o(s) dataset(s) upstream no(s) qual(is) ele foi treinado e avaliado.

O Lineage pode ser usado para muitos casos de uso relacionados a dados:

  • conformidade e prontidão para auditoria : a linhagem de dados ajuda as organizações a rastrear a origem de tabelas e campos. Isso é importante para atender aos requisitos de muitos regulamentos do site compliance, como o Regulamento Geral de Proteção de Dados (GDPR) (GDPR), a Lei de Privacidade do Consumidor da Califórnia (CCPA), a Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA), o Comitê de Supervisão Bancária da Basileia (BCBS) 239 e a Lei Sarbanes-Oxley (SOX).
  • Análise de impacto/gerenciamento de mudanças : Os dados passam por várias transformações desde a fonte até a tabela final pronta para os negócios. Compreender o impacto potencial das mudanças de dados nos usuários posteriores se torna importante do ponto de vista do gerenciamento de riscos. Esse impacto pode ser facilmente determinado usando a linhagem de dados capturada pelo Unity Catalog.
  • Garantia da qualidade dos dados : Compreender a origem de um conjunto de dados e quais transformações foram aplicadas fornece um contexto muito melhor para data scientists e analistas, permitindo que eles obtenham percepções melhores e mais precisas.
  • depuração e diagnóstico : No caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a realizar a análise da causa raiz, rastreando o erro até a sua origem. Isso reduz drasticamente o tempo de solução de problemas.

O Unity Catalog captura a linhagem de dados em tempo de execução em consultas executadas em Databricks e também a linhagem de modelos. A linhagem é compatível com todos os idiomas e é capturada até o nível da coluna. Os dados de linhagem incluem Notebook, Job e dashboards relacionados à consulta. A linhagem pode ser visualizada quase em tempo real no Catalog Explorer e acessada usando a API REST de linhagem de dados da Databricks.

Adicione descrições consistentes aos seus metadados

As descrições fornecem um contexto essencial para os dados. Eles ajudam os usuários a entender a finalidade e o conteúdo das tabelas e colunas de dados. Essa clareza permite que eles descubram, identifiquem e filtrem mais facilmente os dados de que precisam, o que é fundamental para a análise eficaz dos dados e a tomada de decisões. As descrições podem incluir a sensibilidade dos dados e compliance informações. Isso ajuda as organizações a atender aos requisitos legais e regulamentares de privacidade e segurança de dados. As descrições também devem incluir informações sobre a fonte, a precisão e a relevância dos dados. Isso ajuda a garantir a integridade dos dados e promove uma melhor colaboração entre as equipes.

Dois recursos principais em Unity Catalog suportam a descrição de tabelas e colunas. O Unity Catalog permite

  • adicione comentários às tabelas e colunas na forma de comentários.

    O senhor também pode adicionar um AIcomentário gerado pelo para qualquer tabela ou coluna de tabela gerenciada pelo Unity Catalog para acelerar o processo. Entretanto, os modelos do AI nem sempre são precisos e os comentários devem ser revisados antes de serem salvos. Databricks recomenda enfaticamente a revisão humana dos comentários gerados pelo AIpara verificar se há imprecisões.

  • adicionar tags a qualquer securable no Unity Catalog. As tags são atributos com chave e valores opcionais que o senhor pode aplicar a diferentes objetos seguros em Unity Catalog. A marcação é útil para organizar e categorizar diferentes objetos protegíveis em uma metastore. O uso de tags também facilita a pesquisa e a descoberta de seus dados ativos.

Permitir o fácil descobrimento de dados para os consumidores de dados

O Easy Descobrimento de Dados permite que o data scientists, o analista de dados e o engenheiro de dados descubram e consultem rapidamente dados relevantes e acelerem o time to value.

O Databricks Catalog Explorer oferece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas e permissões, proprietários de dados, locais externos e credenciais. Além disso, o senhor pode usar as percepções tab no Catalog Explorer para as view consultas e os usuários recentes mais frequentes de qualquer tabela registrada Unity Catalog em.

Governar AI ativo junto com os dados

A relação entre governança de dados e inteligência artificial (AI) tornou-se fundamental para o sucesso. A forma como as organizações gerenciam, protegem e usam os dados afeta diretamente os resultados e as considerações das implementações de AI: não é possível ter AI sem dados de qualidade, e não é possível ter dados de qualidade sem governança de dados.

A governança de dados e a AI melhoram o desempenho da AI ao garantir o acesso contínuo a dados atualizados e de alta qualidade, o que leva a uma maior precisão e a uma melhor tomada de decisões. A quebra de silos aumenta a eficiência ao permitir uma melhor colaboração e simplificar o fluxo de trabalho, resultando em maior produtividade e redução de custos.

A segurança aprimorada dos dados é outro benefício, pois uma abordagem de governança unificada estabelece práticas consistentes de manuseio de dados, reduzindo as vulnerabilidades e melhorando a capacidade da organização de proteger informações confidenciais. É mais fácil manter a conformidade com as normas de privacidade de dados quando a governança de dados e a AI estão integradas, pois o manuseio de dados e os processos da AI estão alinhados com os requisitos regulamentares.

De modo geral, uma abordagem de governança unificada promove a confiança entre as partes interessadas e garante a transparência nos processos de tomada de decisão em AI, estabelecendo políticas e procedimentos claros para dados e AI.

Na Databricks Data Intelligence Platform, o Unity Catalog é o componente central para governar os dados e o AI ativo:

  • recurso em Unity Catalog

    No espaço de trabalho habilitado em Unity Catalog, data scientists pode criar tabelas de recurso em Unity Catalog. Essas tabelas de recursos são Delta tables ou DLT gerenciar by Unity Catalog.

  • Modelos no Unity Catalog

    Os modelos em Unity Catalog estendem os benefícios de Unity Catalog aos modelos de ML, incluindo controle de acesso centralizado, auditoria, linhagem e descoberta de modelos em todo o espaço de trabalho. Os principais recursos dos modelos em Unity Catalog incluem governança para modelos, linhagem cronológica de modelos, controle de versão de modelos e implementação de modelos por meio de aliases.

2. Unificar os dados e a segurança do site AI

Centralize o controle de acesso a todos os dados e AI ativo

A centralização do controle de acesso para todos os dados ativos é importante porque simplifica a segurança e a governança de seus dados e AI ativos, fornecendo um local central para administrar e auditar o acesso a esses dados ativos. Essa abordagem ajuda a gerenciar os dados e o acesso ao objeto AI de forma mais eficiente, garantindo que os requisitos operacionais em torno da segregação de obrigações sejam cumpridos, o que é crucial para a regulamentação compliance e a prevenção de riscos.

A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados que descrevem quais grupos ou indivíduos podem acessar quais dados. Essas são declarações de política que podem ser extremamente granulares e específicas, até a definição de cada registro ao qual cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como se todos os usuários financeiros pudessem ver todos os dados financeiros.

O Unity Catalog centraliza os controles de acesso para todos os objetos seguros suportados, como tabelas, arquivos, modelos e muitos outros. Cada objeto protegido no Unity Catalog tem um proprietário. O proprietário de um objeto tem todos os privilégios sobre o objeto, bem como a capacidade de conceder privilégios sobre o objeto protegível a outros diretores. O Unity Catalog permite que o senhor gerencie privilégios e configure o controle de acesso usando as instruções DDL do SQL.

O Unity Catalog usa filtros de linha e máscaras de coluna para controle de acesso refinado. Os filtros de linha permitem que você aplique um filtro a uma tabela para que as consultas subsequentes retornem somente as linhas para as quais o predicado do filtro é avaliado como verdadeiro. As máscaras de coluna permitem aplicar uma função de mascaramento a uma coluna da tabela. A função de mascaramento é avaliada no tempo de execução da consulta, substituindo cada referência à coluna de destino pelos resultados da função de mascaramento.

Para obter mais informações, consulte Security, compliance & privacy - gerenciar identidade e acesso usando o privilégio mínimo.

Configurar o registro de auditoria

O registro de auditoria é importante porque fornece um account detalhado das atividades do sistema (ações do usuário, alterações nas configurações, etc.) que podem afetar a integridade do sistema. Embora o sistema padrão logs seja projetado para ajudar os desenvolvedores a solucionar problemas, a auditoria logs fornece um registro histórico da atividade para fins de aplicação da política comercial compliance e outros. A manutenção de uma auditoria robusta no site logs pode ajudar a identificar e garantir a preparação diante de ameaças, violações, fraudes e outros problemas do sistema.

Databricks fornece acesso à auditoria logs das atividades realizadas pelos usuários do Databricks, permitindo que sua organização monitore os padrões detalhados de uso do Databricks. Há dois tipos de logs, auditoria em nível de espaço de trabalho logs com eventos em nível de workspacee auditoria em nível de account logs com eventos em nível de account.

O senhor também pode ativar a auditoria verbosa logs são auditorias adicionais logs registradas sempre que uma consulta ou comando é executado em seu workspace.

Eventos da plataforma de dados de auditoria

O registro de auditoria é importante porque fornece um account detalhado das atividades do sistema. A Data Intelligence Platform tem auditoria logs para o acesso aos metadados (portanto, acesso aos dados) e para o compartilhamento de dados:

  • Unity Catalog captura uma auditoria log das ações executadas no metastore. Isso permite que os administradores acessem detalhes minuciosos sobre quem acessou um determinado site dataset e quais ações foram executadas.
  • Para o compartilhamento seguro com o Delta Sharing, a Databricks fornece logs de auditoria para monitorar os eventos do Delta Sharing, incluindo:
    • Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.
    • Quando um destinatário acessa um link de ativação e downloads a credencial.
    • Quando um destinatário acessa compartilhamentos ou dados em tabelas compartilhadas.
    • Quando a credencial de um destinatário é trocada ou expira.

3. Estabeleça padrões de qualidade de dados

A Databricks Data Intelligence Platform oferece um gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho downstream BI, analítica e de aprendizado de máquina.

Os detalhes da implementação podem ser vistos em Confiabilidade - gerenciar a qualidade dos dados.

Defina padrões claros de qualidade de dados

Definir padrões claros e acionáveis de qualidade de dados é fundamental, pois ajuda a garantir que os dados usados para análise, relatórios e tomada de decisões sejam confiáveis e fidedignos. Documentar esses padrões ajuda a garantir que eles sejam cumpridos. Os padrões de qualidade de dados devem ser baseados nas necessidades específicas da empresa e devem abordar dimensões da qualidade dos dados, como precisão, integridade, consistência, pontualidade e confiabilidade:

  • Precisão: garanta que os dados reflitam com precisão os valores do mundo real.
  • Completude: todos os dados necessários devem ser capturados e nenhum dado crítico deve faltar.
  • Consistência: os dados em todos os sistemas devem ser consistentes e não contradizer outros dados.
  • Pontualidade: os dados devem ser atualizados e disponibilizados em tempo hábil.
  • Confiabilidade: os dados devem ser obtidos e processados de forma a garantir sua confiabilidade.

Usar ferramentas de qualidade de dados para criação de perfis, limpeza, validação e monitoramento de dados

Utilize ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados. Essas ferramentas ajudam a automatizar os processos de detecção e correção de problemas de qualidade de dados, o que é vital para dimensionar as iniciativas de qualidade de dados em grandes conjuntos de dados típicos do lago de dados

Para as equipes que usam DLT, é possível usar as expectativas para definir restrições de qualidade de dados no conteúdo de um dataset. As expectativas permitem que o senhor garanta que os dados que chegam às tabelas atendam aos requisitos de qualidade de dados e forneçam percepções sobre a qualidade dos dados para cada atualização do site pipeline.

Implementar e aplicar formatos e definições de padronizar os dados

Padronizar os formatos e definições de dados ajuda a obter uma representação consistente dos dados em todos os sistemas para facilitar a integração de dados e análises, reduzir custos e melhorar a tomada de decisões, aprimorando a comunicação e a colaboração entre equipes e departamentos. Também ajuda a fornecer uma estrutura para criar e manter a qualidade dos dados.

Desenvolva e aplique um dicionário de dados padrão que inclua definições, formatos e valores aceitáveis para todos os elementos de dados usados em toda a organização.

Use convenções de nomenclatura, formatos de data e unidades de medida consistentes em todos os bancos de dados e aplicativos para evitar discrepâncias e confusões.