Práticas recomendadas para interoperabilidade e usabilidade

Este artigo aborda as melhores práticas para interoperabilidade e usabilidade, organizadas por princípios arquiteturais listados nas seções a seguir.

1. Definir padrões para integração

Use a API REST do Databricks para integração externa

O Databricks lakehouse vem com uma API REST abrangente que permite gerenciar quase todos os aspectos da plataforma de forma programática. A execução do servidor REST API no plano de controle e fornece um endpoint unificado para gerenciar a plataforma Databricks. Esta é a forma preferida de integrar Databricks, por exemplo, em ferramentas existentes para CI/CD ou MLOps. Para integração em dispositivos baseados em shell, a CLI do Databricks encapsula muitas das APIs REST em uma interface de linha de comando.

Use conectores otimizados para acessar a fonte de dados da casa do lago

A Databricks oferece uma variedade de maneiras de ajudá-lo a ingerir dados no Delta Lake. Portanto, o Lakehouse fornece conectores otimizados para muitos formatos de dados e serviços de nuvem. Consulte Consultar bancos de dados usando JDBC. Muitos deles já estão incluídos no Databricks Runtime. Esses conectores geralmente são criados e otimizados para fontes de dados específicas.

Use os parceiros disponíveis no Partner Connect

As empresas têm necessidades diferentes e nenhuma ferramenta pode atender a todas elas. O Partner Connect permite explorar e integrar facilmente com nossos parceiros, que abrangem todos os aspectos do lakehouse: aquisição de dados, preparação e transformações, BI e visualização, machine learning, qualidade de dados, e assim por diante. O Partner Connect permite que você crie account de avaliação com parceiro tecnológico selecionado do Databricks e conecte seu workspace do Databricks a soluções de parceiros a partir da interface do usuário do Databricks. Experimente soluções de parceiros usando seus dados no Databricks lakehouse e, em seguida, adote as soluções que melhor atendem às suas necessidades de negócios.

Use Delta Live Tables e Auto Loader

Delta Live Tables é uma estrutura para criar pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Você define as transformações a serem realizadas em seus dados e o Delta Live Tables gerencia a orquestração de tarefas, gerenciamento clusters , monitoramento, qualidade de dados e tratamento de erros. Veja O que é Delta Live Tables?.

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em cloud . Ele pode ler arquivos de dados de forma confiável do armazenamento cloud . Um aspecto essencial do Delta Live Tables e do Auto Loader é sua natureza declarativa: sem eles, é preciso construir pipelines complexos que integram diferentes serviços cloud - como um serviço de notificação e um serviço de enfileiramento - para ler arquivos cloud de maneira confiável com base em eventos e permitem a combinação de lotes e fontes de transmissão de forma confiável.

O Auto Loader e o Delta Live Tables reduzem as dependências e a complexidade do sistema e melhoram significativamente a interoperabilidade com o armazenamento cloud e entre diferentes paradigmas como lotes e transmissão. Como efeito colateral, a simplicidade dos pipelines aumenta a usabilidade da plataforma.

Use a infraestrutura como código para implantações e manutenção

O HashiCorp Terraform é uma ferramenta popular de código aberto para criar infraestrutura cloud segura e previsível em vários provedores cloud . Consulte Excelência operacional > Usar infraestrutura como código para implantações e manutenção

2. Prefira interfaces abertas e formatos de dados abertos

Use o formato de dados Delta

A estrutura do Delta Lake tem muitas vantagens, desde recursos de confiabilidade até aprimoramentos de alto desempenho, e também é um formato de dados totalmente aberto. Ver:

Além disso, o Delta Lake vem com uma biblioteca Delta Standalone, que abre o formato Delta para projetos de desenvolvimento. É uma biblioteca Java de nó único que pode ler e gravar em tabelas Delta. Dezenas de ferramentas e aplicativos de terceiros oferecem suporte ao Delta Lake. Especificamente, essa biblioteca fornece APIs para interagir com metadados de tabelas nos logs de transações, implementando o protocolo de logs de transações Delta para obter as garantias transacionais do formato Delta. Consulte O que é o Delta Lake?

Use o compartilhamento Delta para trocar dados com parceiros

O Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhamento seguro de dados com outras organizações, independentemente de quais plataformas de computação elas usam. Um usuário do Databricks, chamado de “provedor de dados”, pode usar o compartilhamento Delta para compartilhar dados com uma pessoa ou grupo fora de sua organização, denominado “destinatário de dados”. Os destinatários dos dados podem começar a trabalhar imediatamente com a versão mais recente dos dados compartilhados. O compartilhamento Delta está disponível para dados no metastore do Unity Catalog .

Use o MLflow para gerenciar o fluxo de trabalho machine learning

MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida de ML, incluindo experimentação, reprodutibilidade, implantação e um registro de modelo central. Usar MLflow no Databricks oferece ambas as vantagens: você pode escrever seu fluxo de trabalho de ML usando uma ferramenta aberta e portátil e usar um serviço confiável operado pelo Databricks (servidor de acompanhamento, registro de modelo). Consulte Gerenciamento do ciclo de vida de ML usando MLflow. Ele também adiciona um modelo interativo escalável de nível empresarial, permitindo hospedar modelos MLflow como endpoint REST.

3. Reduza as barreiras para implementar casos de uso

Forneça uma experiência de autoatendimento em toda a plataforma

A Databricks Data Intelligence Platform tem todos os recursos necessários para proporcionar uma experiência de autosserviço. Embora possa haver um passo a passo de aprovação obrigatória, a melhor prática é automatizar totalmente a configuração quando uma unidade de negócios solicita acesso ao site lakehouse. Provisione automaticamente seu novo ambiente, sincronize usuários e use SSO para autenticação, forneça controle de acesso a dados comuns e armazenamentos de objetos separados para seus próprios dados, e assim por diante. Juntamente com um catálogo central de dados que contém conjuntos de dados semanticamente consistentes e prontos para os negócios, isso fornece acesso rápido e seguro a novas unidades de negócios aos recursos da Lakehouse e aos dados de que precisam.

Use os serviços serverless da plataforma

Para computação sem servidor na plataforma Databricks, a execução da camada de computação na account Databricks do cliente. os administradores cloud não precisam mais gerenciar ambientes cloud complexos que envolvem o ajuste de cotas, criação e manutenção de ativos de rede e associação de fontes de cobrança. Os usuários se beneficiam de tempos de espera quase zero para clusters começarem e melhor simultaneidade em suas query.

Ofereça clusters predefinidos e SQL warehouse para cada caso de uso

Se não for possível usar serviços serverless , remova o fardo de definir clusters (tipo de VM, tamanho de nó e tamanho de clusters ) dos usuários finais. Isso pode ser conseguido das seguintes maneiras:

  • Forneça clusters compartilhados como ambientes imediatos para os usuários. Nesses clusters, use autoscale para um mínimo de nós para evitar altos custos de parado.

  • Use a política de cluster para definir clusters do tamanho de camisetas (S, M, L) para projetos como um ambiente de trabalho padronizado.

4. Garanta a consistência e usabilidade dos dados

Ofereça dados como produtos reutilizáveis nos quais a empresa pode confiar

Produzir dados como produto de alta qualidade é o objetivo principal de qualquer plataforma de dados. A ideia é que as equipes data engineering apliquem o pensamento do produto aos dados selecionados: os ativos de dados são seus produtos, e o cientista de dados, engenheiros de ML e BI ou quaisquer outras equipes de negócios que consomem dados são seus clientes. Esses clientes devem ser capazes de descobrir, abordar e criar valor a partir desses dados-como-produtos por meio de uma experiência de autoatendimento sem a intervenção das equipes de dados especializadas.

Publique produtos de dados semanticamente consistentes em toda a empresa

Um data lake geralmente contém dados de diferentes sistemas de origem. Às vezes, esses sistemas nomeiam o mesmo conceito de maneira diferente (como cliente x account) ou significam conceitos diferentes pelo mesmo identificador. Para que os usuários de negócios combinem facilmente esses conjuntos de dados de maneira significativa, os dados devem ser homogêneos em todas as fontes para serem semanticamente consistentes. Além disso, para que alguns dados sejam valiosos para análise, as regras internas de negócios devem ser aplicadas corretamente, como o reconhecimento de receita. Para garantir que todos os usuários estejam usando os dados interpretados corretamente, os conjuntos de dados com essas regras devem ser disponibilizados e publicados no Unity Catalog. O acesso aos dados de origem deve ser limitado a equipes que entendam o uso correto.

Use o Unity Catalog para descoberta de dados e exploração de linhagem

No Unity Catalog, os administradores e gerenciamento de dados gerenciam os usuários e seu acesso aos dados centralmente em todo o workspace em uma account do Databricks. Usuários em diferentes workspace podem compartilhar os mesmos dados e, dependendo dos privilégios de usuário concedidos centralmente no Unity Catalog, o acesso conjunto aos dados é possível. Consulte O que é o Catalog Explorer?.

Do ponto de vista da usabilidade, o Unity Catalog fornece os dois recursos a seguir:

  • O Catalog Explorer é a interface de usuário principal para muitos recursos do Unity Catalog. O senhor pode usar o Catalog Explorer para view detalhes do esquema, visualizar dados de amostra e ver detalhes e propriedades da tabela. Os administradores podem view e alterar os proprietários, e os administradores e proprietários de objetos de dados podem conceder e revogar permissões. O senhor também pode usar o Databricks Search, que permite que os usuários encontrem dados ativos (como tabelas, colunas, visualizações, painéis, modelos, etc.) de forma fácil e contínua. Serão mostrados aos usuários resultados relevantes para suas solicitações de pesquisa e aos quais eles têm acesso. Consulte Captura e view linhagem de dados usando o Unity Catalog.

  • Linhagem de dados em toda a execução query em clusters Databricks ou SQL warehouse. O Lineage é compatível com todos os idiomas e é capturado até o nível da coluna. Os dados de linhagem incluem Notebook, fluxo de trabalho e dashboards relacionados à query. A linhagem pode ser visualizada no Catalog Explorer quase em tempo real e recuperada com a API REST do Databricks.

Para permitir que as empresas forneçam aos usuários uma view holística de todos os dados em todas as plataformas de dados, Unity Catalog fornece integração com o catálogo de dados corporativo (às vezes chamado de “catálogo de catálogos”).