Práticas recomendadas para governança de dados e IA
Este artigo aborda as práticas recomendadas de governança de dados e AI, organizadas pelos princípios arquitetônicos listados nas seções a seguir.
1. Unificar o gerenciamento de dados e de IA
Estabelecer um processo de governança de dados e IA
A governança de dados e de AI é o gerenciamento da disponibilidade, usabilidade, integridade e segurança dos dados e do ativo de AI de uma organização. Ao fortalecer a governança de dados e IA, as organizações podem garantir a qualidade dos ativos que são essenciais para uma análise e tomada de decisões precisas, ajudar a identificar novas oportunidades, melhorar a satisfação do cliente e, por fim, aumentar a receita. Ele ajuda as organizações a cumprir as normas de privacidade de dados e IA e a aprimorar as medidas de segurança, reduzindo o risco de violações de dados e penalidades. A governança de dados eficaz também elimina redundâncias e agiliza a gestão de dados, resultando em economia de custos e maior eficiência operacional.
Uma organização pode querer escolher o modelo de governança mais adequado para ela:
No modelo de governança centralizada, seus administradores de governança são proprietários do metastore e podem assumir a propriedade de qualquer objeto e conceder e revogar permissões.
Em um modelo de governança distribuída, o catálogo ou um conjunto de catálogos é o domínio de dados. O proprietário desse catálogo pode criar e possuir toda a governança ativa e gerenciar dentro desse domínio. Os proprietários de um determinado domínio podem operar independentemente dos proprietários de outros domínios.
As soluções de governança de dados e IA Unity Catalog estão integradas à Databricks Data Intelligence Platform. Ele é compatível com ambos os modelos de governança e ajuda a gerenciar perfeitamente dados estruturados e não estruturados, modelos ML, notebook, painéis e arquivos em qualquer cloud ou plataforma. As práticas recomendadas do Unity Catalog ajudam a implementar a governança de dados e IA.
Gerenciar metadados para todos os dados e IA ativo em um único local
Os benefícios de gerenciar metadados para todos os ativos em um único lugar são semelhantes aos benefícios de manter uma única fonte de verdade para todos os seus dados. Isso inclui a redução da redundância de dados, o aumento da integridade dos dados e a eliminação de mal-entendidos devido a diferentes definições ou taxonomias. Também é mais fácil implementar políticas, padrões e regras globais com uma única fonte.
Como prática recomendada, execute o lakehouse em um único account com um Unity Catalog. O Unity Catalog pode gerenciar dados e volumes (arquivos arbitrários), bem como IA ativo, como recurso e modelos de IA. O contêiner de nível superior de objetos no Unity Catalog é um metastore. Ele armazena dados ativos (como tabelas e visualizações) e as permissões que regem o acesso a eles. Use um único metastore por região cloud e não acesse metastores entre regiões para evitar problemas de latência.
O metastore fornece um namespace de três níveis para estruturar dados, volumes e IA ativo:
Databricks recomenda o uso de catálogos para fornecer segregação na arquitetura de informação da sua organização. Muitas vezes, isso significa que os catálogos podem corresponder ao escopo, equipe ou unidade de negócios do ambiente de desenvolvimento de software.
Rastreie os dados e a linhagem de IA para aumentar a visibilidade dos dados
A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. A linhagem de dados descreve as transformações e o refinamento dos dados da fonte ao entendimento. Inclui a captura de todos os metadados e eventos relevantes associados aos dados durante todo o seu ciclo de vida, inclusive a origem do conjunto de dados, quais outros conjuntos de dados foram usados para criá-lo, quem o criou e quando, quais transformações foram realizadas, quais outros conjuntos de dados o utilizam e muitos outros eventos e atributos.
Além disso, quando o senhor ensina um modelo em uma tabela em Unity Catalog, pode rastrear a linhagem do modelo até o(s) dataset(s) upstream no(s) qual(is) ele foi treinado e avaliado.
A linhagem pode ser usada para muitos casos de uso relacionados a dados:
compliance e prontidão para auditoria: a linhagem de dados ajuda as organizações a rastrear a origem de tabelas e campos. Isso é importante para atender aos requisitos de muitos regulamentos compliance , como regulamentos gerais de proteção de dados (GDPR), California Consumer Privacy Act (CCPA), Health Insurance Portability and Accountability Act (HIPAA), Basel Committee on Banking Supervision (BCBS) 239, e Lei Sarbanes-Oxley (SOX).
Análise de impacto/gerenciamento de mudanças: Os dados passam por várias transformações desde a fonte até a tabela final pronta para os negócios. Entender o impacto potencial das alterações de dados nos usuários downstream torna-se importante do ponto de vista do gerenciamento de riscos. Esse impacto pode ser facilmente determinado usando a linhagem de dados capturada pelo Unity Catalog.
Garantia de qualidade de dados: entender de onde veio um conjunto de dados e quais transformações foram aplicadas fornece um contexto muito melhor para cientistas de dados e analistas, permitindo que eles obtenham um entendimento melhor e mais preciso.
depuração e diagnóstico: No caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a realizar a análise da causa raiz, rastreando o erro até a sua origem. Isso reduz drasticamente o tempo de solução de problemas.
O Unity Catalog captura a linhagem de dados em tempo de execução em consultas executadas em Databricks e também a linhagem de modelos. A linhagem é compatível com todos os idiomas e é capturada até o nível da coluna. Os dados de linhagem incluem Notebook, Job e dashboards relacionados à consulta. A linhagem pode ser visualizada quase em tempo real no Catalog Explorer e acessada usando a API REST de linhagem de dados da Databricks.
Adicione descrições consistentes aos seus metadados
As descrições fornecem um contexto essencial para os dados. Eles ajudam os usuários a entender a finalidade e o conteúdo das tabelas e colunas de dados. Essa clareza permite que eles descubram, identifiquem e filtrem mais facilmente os dados de que precisam, o que é fundamental para a análise eficaz dos dados e a tomada de decisões. As descrições podem incluir a sensibilidade dos dados e compliance informações. Isso ajuda as organizações a atender aos requisitos legais e regulamentares de privacidade e segurança de dados. As descrições também devem incluir informações sobre a fonte, a precisão e a relevância dos dados. Isso ajuda a garantir a integridade dos dados e promove uma melhor colaboração entre as equipes.
Dois recursos principais em Unity Catalog suportam a descrição de tabelas e colunas. O Unity Catalog permite
adicionar comentários a tabelas e colunas na forma de comentários.
O senhor também pode adicionar um comentário gerado pela IA para qualquer tabela ou coluna de tabela gerenciada por Unity Catalog para acelerar o processo. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de serem salvos. A Databricks recomenda enfaticamente a revisão humana dos comentários gerados por IA para verificar se há imprecisões.
adicionar tags a qualquer securable no Unity Catalog. tags são atributos com chave e valores opcionais que o senhor pode aplicar a diferentes objetos protegíveis em Unity Catalog. é útil para organizar e categorizar diferentes objetos securizáveis em um metastore. O uso do tags também facilita a pesquisa e a descoberta de seus dados ativos.
Permitir o fácil descobrimento de dados para os consumidores de dados
O Easy Descobrimento de Dados permite que o data scientists, o analista de dados e o engenheiro de dados descubram e consultem rapidamente dados relevantes e acelerem o time to value.
O Databricks Catalog Explorer oferece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas e permissões, proprietários de dados, locais externos e credenciais. Além disso, o senhor pode usar as percepções tab no Catalog Explorer para view as consultas e os usuários recentes mais frequentes de qualquer tabela registrada em Unity Catalog.
Governar a IA ativa junto com os dados
A relação entre a governança de dados e a inteligência artificial (IA) tornou-se fundamental para o sucesso. O modo como as organizações gerenciam, protegem e usam os dados afeta diretamente os resultados e as considerações das implementações de AI: não é possível ter AI sem dados de qualidade, e não é possível ter dados de qualidade sem governança de dados.
A governança conjunta de dados e IA melhora o desempenho da IA ao garantir o acesso contínuo a dados atualizados e de alta qualidade, levando a uma maior precisão e a uma melhor tomada de decisões. A quebra de silos aumenta a eficiência, pois permite uma melhor colaboração e agiliza o fluxo de trabalho, resultando em maior produtividade e redução de custos.
A segurança aprimorada dos dados é outro benefício, pois uma abordagem de governança unificada estabelece práticas consistentes de tratamento de dados, reduzindo as vulnerabilidades e melhorando a capacidade da organização de proteger informações confidenciais. compliance A conformidade com as normas de privacidade de dados é mais fácil de manter quando a governança de dados e de AI está integrada, pois os processos de manuseio de dados e de AI estão alinhados com os requisitos normativos.
De modo geral, uma abordagem de governança unificada promove a confiança entre as partes interessadas e garante a transparência nos processos de tomada de decisão de IA, estabelecendo políticas e procedimentos claros para dados e IA.
Na Databricks Data Intelligence Platform, o Unity Catalog é o componente central para governar os dados e a IA ativa:
-
No espaço de trabalho habilitado em Unity Catalog, data scientists pode criar tabelas de recurso em Unity Catalog. Essas tabelas de recursos são Delta tables ou Delta Live Tables gerenciar por Unity Catalog.
-
Os modelos em Unity Catalog estendem os benefícios de Unity Catalog aos modelos de ML, incluindo controle de acesso centralizado, auditoria, linhagem e descoberta de modelos em todo o espaço de trabalho. key O recurso de modelos em Unity Catalog inclui governança para modelos, linhagem cronológica de modelos, controle de versão de modelos e implementação de modelos por meio de aliases.
2. Unificar a segurança dos dados e da IA
Centralize o controle de acesso a todos os dados e IA ativo
A centralização do controle de acesso para todos os dados ativos é importante porque simplifica a segurança e a governança de seus dados e IA ativos, fornecendo um local central para administrar e auditar o acesso a esses dados ativos. Essa abordagem ajuda a gerenciar os dados e o acesso a objetos de AI de forma mais eficiente, garantindo que os requisitos operacionais em torno da segregação de obrigações sejam aplicados, o que é crucial para a regulamentação compliance e a prevenção de riscos.
A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados que descrevem quais grupos ou indivíduos podem acessar quais dados. Essas são declarações de política que podem ser extremamente granulares e específicas, até a definição de cada registro ao qual cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como, por exemplo, todos os usuários financeiros podem ver todos os dados financeiros.
O Unity Catalog centraliza os controles de acesso para todos os objetos seguros suportados, como tabelas, arquivos, modelos e muitos outros. Cada objeto protegido no Unity Catalog tem um proprietário. O proprietário de um objeto tem todos os privilégios sobre o objeto, bem como a capacidade de conceder privilégios sobre o objeto protegido a outros diretores. O Unity Catalog permite que o senhor gerencie privilégios e configure o controle de acesso usando as instruções DDL do SQL.
O Unity Catalog usa filtros de linha e máscaras de coluna para controle de acesso refinado. Os filtros de linha permitem que o senhor aplique um filtro a uma tabela para que as consultas subsequentes retornem somente as linhas para as quais o predicado do filtro seja avaliado como verdadeiro. As máscaras de coluna permitem que o senhor aplique uma função de máscara a uma coluna da tabela. A função de mascaramento é avaliada no tempo de execução da consulta, substituindo cada referência à coluna de destino pelos resultados da função de mascaramento.
Para obter mais informações, consulte Segurança, conformidade e privacidade - gerencie identidade e acesso usando o mínimo de privilégio.
Configurar registro de auditoria
O registro de auditoria é importante porque fornece um account detalhado das atividades do sistema (ações do usuário, alterações nas configurações, etc.) que podem afetar a integridade do sistema. Embora o sistema padrão logs seja projetado para ajudar os desenvolvedores a solucionar problemas, a auditoria logs fornece um registro histórico da atividade para fins de aplicação da política comercial compliance e outros. A manutenção de uma auditoria robusta no site logs pode ajudar a identificar e garantir a preparação diante de ameaças, violações, fraudes e outros problemas do sistema.
O Databricks fornece acesso aos registros de auditoria das atividades realizadas pelos usuários do Databricks, permitindo que sua organização monitore os padrões detalhados de uso do Databricks. Há dois tipos de logs, workspace-level audit logs com workspace-level events e account-level audit logs com account-level events.
O senhor também pode ativar a auditoria verbose logs são auditorias adicionais logs registradas sempre que uma consulta ou comando é executado em seu workspace.
Auditar eventos da plataforma de dados
O registro de auditoria é importante porque fornece um account detalhado das atividades do sistema. A Data Intelligence Platform tem auditoria logs para o acesso aos metadados (portanto, acesso aos dados) e para o compartilhamento de dados:
Unity Catalogs captura logsde auditoria de ações executadas no metastore. Isso permite que os administradores acessem detalhes detalhados sobre quem acessou um determinado dataset e quais ações executaram.
Para o compartilhamento seguro com o Delta Sharing, a Databricks fornece logs de auditoria para monitorar os eventos do Delta Sharing, incluindo:
Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.
Quando um destinatário acessa um link de ativação e downloads a credencial.
Quando um destinatário acessa compartilhamentos ou dados em tabelas compartilhadas.
Quando a credencial de um destinatário é rotacionada ou expira.
3. Estabelecer padrões de qualidade de dados
A Databricks Data Intelligence Platform fornece um gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI, analítica e machine learning downstream.
Os detalhes da implementação podem ser vistos em Confiabilidade - gerenciar a qualidade dos dados.
Definir padrões claros de qualidade de dados
Definir padrões claros e acionáveis de qualidade de dados é fundamental, pois ajuda a garantir que os dados usados para análise, relatórios e tomada de decisões sejam confiáveis e fidedignos. A documentação desses padrões ajuda a garantir que eles sejam mantidos. Os padrões de qualidade dos dados devem se basear nas necessidades específicas da empresa e devem abordar dimensões da qualidade dos dados, como precisão, integridade, consistência, pontualidade e confiabilidade:
Precisão: Garantir que os dados reflitam com precisão os valores do mundo real.
Completude: Todos os dados necessários devem ser capturados e nenhum dado crítico deve estar faltando.
Consistência: Os dados em todos os sistemas devem ser consistentes e não contradizer outros dados.
Pontualidade: Os dados devem ser atualizados e disponibilizados em tempo hábil.
Confiabilidade: Os dados devem ser obtidos e processados de forma a garantir sua confiabilidade.
Usar ferramentas de qualidade de dados para criação de perfis, limpeza, validação e monitoramento de dados
Utilize ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados. Essas ferramentas ajudam a automatizar os processos de detecção e correção de problemas de qualidade de dados, o que é vital para dimensionar as iniciativas de qualidade de dados em grandes conjuntos de dados típicos do lago de dados
Para as equipes que usam DLT, é possível usar as expectativas para definir restrições de qualidade de dados no conteúdo de um dataset. As expectativas permitem que o senhor garanta que os dados que chegam às tabelas atendam aos requisitos de qualidade de dados e forneçam percepções sobre a qualidade dos dados para cada atualização do site pipeline.
Implementar e aplicar formatos e definições de padronizar os dados
Padronizar os formatos e definições de dados ajuda a obter uma representação consistente dos dados em todos os sistemas para facilitar a integração de dados e análises, reduzir custos e melhorar a tomada de decisões, aprimorando a comunicação e a colaboração entre equipes e departamentos. Ele também ajuda a fornecer uma estrutura para criar e manter a qualidade dos dados.
Desenvolver e aplicar um dicionário de dados padrão que inclua definições, formatos e valores aceitáveis para todos os elementos de dados usados em toda a organização.
Use convenções de nomenclatura, formatos de data e unidades de medida consistentes em todos os bancos de dados e aplicativos para evitar discrepâncias e confusão.