Práticas recomendadas para interoperabilidade e usabilidade

Este artigo aborda as melhores práticas para interoperabilidade e usabilidade, organizadas por princípios arquiteturais listados nas seções a seguir.

1. Definir padrões para integração

Usar padrões de integração padrão e reutilizáveis para integração externa

Os padrões de integração são importantes porque fornecem diretrizes sobre como os dados devem ser representados, trocados e processados em diferentes sistemas e aplicativos. Esses padrões ajudam a garantir que os dados sejam compatíveis, de alta qualidade e interoperáveis em várias fontes e destinos.

O Databricks lakehouse vem com um abrangente REST API que permite ao senhor gerenciar programaticamente quase todos os aspectos da plataforma. O REST API executa o servidor no plano de controle e fornece um endpoint unificado para gerenciar a plataforma Databricks.

A API REST fornece o nível mais baixo de integração que sempre pode ser usado. No entanto, a maneira preferida de se integrar ao Databricks é usar abstrações de nível mais alto, como os SDKs do Databricks ou as ferramentas CLI. CLI As ferramentas são baseadas em shelle permitem a fácil integração da plataforma Databricks em CI/CD e MLOps fluxo de trabalho.

Use conectores otimizados para ingerir fontes de dados no lakehouse

A Databricks oferece uma variedade de maneiras de ajudá-lo a ingerir dados no Delta Lake.

  • Databricks fornece conectores otimizados para serviços de transmissão de mensagens, como Apache Kafka para ingestão de dados em tempo quase real.

  • Databricks oferece integrações a muitos sistemas de dados nativos do cloud e suporte extensível ao JDBC para conexão com outros sistemas de dados.

  • Uma opção para integrar a fonte de dados sem ETL é a lakehouse Federation. lakehouse Federation é a plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem precisar migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Unity Cataloggarantem que o acesso aos dados seja gerenciado e auditado para todas as consultas federadas executadas pelos usuários no seu espaço de trabalho Databricks.

    Observação

    Qualquer consulta na plataforma Databricks que use uma fonte da Federação lakehouse é enviada para essa fonte. Certifique-se de que o sistema de origem possa suportar a carga. Além disso, esteja ciente de que, se o sistema de origem for implantado em uma região cloud ou cloud diferente, haverá um custo de saída para cada consulta.

    Considere a possibilidade de descarregar o acesso aos bancos de dados subjacentes por meio da visualização materializada para evitar cargas altas/concorrentes nos bancos de dados operacionais e reduzir os custos de saída.

Usar ferramentas de parceiros certificados

As organizações têm necessidades diferentes e nenhuma ferramenta única pode atender a todas elas. Partner Connect permite que o senhor explore e se integre facilmente com nossos parceiros, que cobrem todos os aspectos do lakehouse: ingestão de dados, preparação e transformações, BI e visualização, machine learning, qualidade de dados e muito mais. Partner Connect permite que o senhor crie uma conta de avaliação com o Databricks parceiro tecnológico selecionado e conecte seu Databricks workspace a parceiros de soluções a partir da interface do usuário Databricks. Experimente soluções de parceiros usando seus dados no Databricks lakehouse e, em seguida, adote as soluções que melhor atendam às suas necessidades comerciais.

Reduzir a complexidade do pipeline de engenharia de dados

Investir na redução da complexidade do pipeline de engenharia de dados permite escalabilidade, agilidade e flexibilidade para poder expandir e inovar mais rapidamente. O pipeline simplificado facilita gerenciar e adaptar todas as necessidades operacionais de uma engenharia de dados pipeline: tarefa orquestração, gerenciamento cluster, monitoramento, qualidade de dados e tratamento de erros.

Delta Live Tables é uma estrutura para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações que deseja realizar nos dados e o site Delta Live Tables cuida da solicitação de tarefas, do gerenciamento do cluster, do monitoramento, da qualidade dos dados e do tratamento de erros. Veja o que é Delta Live Tables?

Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento cloud. Ele pode ler de forma confiável arquivos de dados do armazenamento cloud. Um aspecto importante dos sites Delta Live Tables e Auto Loader é sua natureza declarativa: Sem eles, é preciso criar um pipeline complexo que integre diferentes serviços do cloud - como um serviço de notificação e um serviço de enfileiramento - para ler de forma confiável os arquivos do cloud com base em eventos e para combinar de forma confiável lotes e fontes de transmissão.

Auto Loader e Delta Live Tables reduzem as dependências e a complexidade do sistema e melhoram muito a interoperabilidade com o armazenamento cloud e entre diferentes paradigmas, como lotes e transmissão. Como efeito colateral, a simplicidade do pipeline aumenta a usabilidade da plataforma.

Usar infraestrutura como código (IaC) para implementações e manutenção

O HashiCorp Terraform é uma ferramenta popular de código aberto para criar uma infraestrutura cloud segura e previsível em vários provedores cloud. Consulte Excelência operacional: Use a infraestrutura como código para implementações e manutenção

2. Utilizar interfaces abertas e formatos de dados abertos

Use formatos de dados abertos

O uso de um formato de dados aberto significa que não há restrições quanto ao seu uso. Isso é importante porque elimina as barreiras ao acesso e ao uso dos dados para análise e para impulsionar as percepções de negócios. Os formatos abertos, como os criados em Apache Spark, também acrescentam recursos que aumentam o desempenho com suporte para transações ACID, transmissão unificada e processamento de muitos dados. Além disso, o código aberto é orientado pela comunidade, o que significa que a comunidade está constantemente trabalhando para aprimorar os recursos existentes e adicionar novos, facilitando para os usuários a obtenção do máximo de seus projetos.

O principal formato de dados usado na Data Intelligence Platform é o Delta Lake, um formato de dados totalmente aberto que oferece muitos benefícios, desde confiabilidade até aprimoramentos de desempenho. Consulte Use um formato de dados que suporte transações ACID e Melhores práticas para eficiência de desempenho.

Devido à sua natureza aberta, o Delta Lake possui um grande ecossistema. Dezenas de ferramentas e aplicativos de terceiros oferecem suporte ao Delta Lake.

Para melhorar ainda mais a interoperabilidade, o Delta Universal Format (UniForm) permite que o senhor leia tabelas Delta com clientes de leitura Iceberg. O UniForm gera automaticamente metadados Iceberg de forma assíncrona, sem reescrever os dados, para que os clientes Iceberg possam ler tabelas Delta como se fossem tabelas Iceberg. Uma única cópia dos arquivos de dados serve para ambos os formatos.

Permitir o compartilhamento seguro de dados e IA para todos os dados ativos

O compartilhamento de dados e a IA ativa podem levar a uma melhor colaboração e tomada de decisões. No entanto, ao compartilhar dados, é importante manter o controle, proteger seus dados e garantir compliance o cumprimento das leis e regulamentações relevantes de compartilhamento de dados.

Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhar dados de forma segura com outras organizações, independentemente das plataformas de computação que elas usam. Se quiser compartilhar dados com usuários fora do seu Databricks workspace, independentemente de eles usarem o Databricks, o senhor pode usar o open Delta Sharing para compartilhar seus dados com segurança. Se quiser compartilhar dados com usuários que tenham um Databricks workspace habilitado para Unity Catalog, o senhor pode usar Databricks-to-Databricks Delta Sharing.

Em ambos os casos, o senhor pode compartilhar tabelas, visualizações, volumes, modelos e o Notebook.

  • Use o protocolo aberto Delta Sharing para compartilhar dados com parceiros.

    Delta Sharing fornece uma solução aberta para o compartilhamento seguro de dados em tempo real do seu site lakehouse para qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma cloud ou em qualquer cloud. Delta Sharing integra-se nativamente com Unity Catalog, permitindo que as organizações gerenciem e auditem centralmente os dados compartilhados e o IA ativo em toda a empresa e compartilhem com confiança os dados e o IA ativo que atendem aos requisitos de segurança e compliance.

    Os provedores de dados podem compartilhar dados em tempo real e modelos de IA de onde eles estão armazenados na plataforma de dados, sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais do compartilhamento de dados e IA porque os provedores de dados não precisam replicar os dados várias vezes em clouds, geografias ou plataformas de dados para cada um de seus consumidores de dados.

  • Use Databricks-to-Databricks Delta Sharing entre os usuários de Databricks.

    Se quiser compartilhar dados com usuários que não têm acesso ao seu Unity Catalog metastore, você pode usar Databricks-to-Databricks Delta Sharingdesde que os destinatários tenham acesso a um Databricks workspace que esteja habilitado para Unity Catalog. Databricks-to-Databricks O compartilhamento permite que o senhor compartilhe dados com usuários de outras contas Databricks, entre regiões cloud e entre provedores cloud. É uma ótima maneira de compartilhar dados com segurança em diferentes Unity Catalog metastores em seu próprio Databricks account.

Use padrões abertos para o gerenciamento do ciclo de vida do ML

Assim como o uso de um formato de dados de código aberto, o uso de padrões abertos para seu fluxo de trabalho de AI tem benefícios semelhantes em termos de flexibilidade, agilidade, custo e segurança.

O MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida do ML e da IA. Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, integrada com recurso de segurança empresarial, alta disponibilidade e outros Databricks workspace recursos, como gerenciamento de experimentos e execução e Notebook acompanhamento de revisões.

Os principais componentes são o acompanhamento de experimentos para log e rastrear automaticamente ML e modelos de aprendizagem profunda, modelos como um formato padrão para empacotar o modelo do machine learning, um registro de modelo integrado com Unity Catalog e o modelo de serviço escalável e de nível empresarial.

3. Simplificar a implementação de novos casos de uso

Forneça uma experiência de autoatendimento em toda a plataforma

Há vários benefícios de uma plataforma em que os usuários têm autonomia para usar as ferramentas e os recursos de acordo com suas necessidades. Investir na criação de uma plataforma de autoatendimento facilita a escala para atender a mais usuários e aumenta a eficiência ao minimizar a necessidade de envolvimento humano para provisionar usuários, resolver problemas e processar solicitações de acesso.

A Databricks Data Intelligence Platform tem todos os recursos necessários para proporcionar uma experiência de autosserviço. Embora possa haver um passo a passo de aprovação obrigatória, a prática recomendada é automatizar totalmente a configuração quando uma unidade de negócios solicitar acesso ao site lakehouse. Provisione automaticamente seu novo ambiente, sincronize usuários e use o site SSO para autenticação, forneça controle de acesso a dados compartilhados e armazene objetos separados para seus próprios dados, e assim por diante. Juntamente com um catálogo central de dados de conjuntos de dados semanticamente consistentes e prontos para os negócios, novas unidades de negócios podem acessar de forma rápida e segura os recursos do lakehouse e os dados de que precisam.

Usar computação sem servidor

Para serverless compute na plataforma Databricks, a execução da camada compute no site do cliente Databricks account. cloud Os administradores não precisam mais gerenciar ambientes cloud complexos que exigem ajuste de cotas, criação e manutenção de recursos de rede e conexão com fontes de faturamento. Os usuários se beneficiam da latência quase nula do cluster startup e da melhor simultaneidade de consultas.

Use o padrão predefinido compute

Os padrões predefinidos ajudam a controlar como os compute recursos podem ser usados ou criados pelos usuários: Limite a criação do cluster usuário a configurações prescritas ou a um determinado número, simplifique a interface do usuário ou controle os custos limitando o custo máximo por cluster.

A Data Intelligence Platform realiza isso de duas maneiras:

  • Forneça clusters compartilhados como ambientes imediatos para os usuários. Nesses sites clusters, use a autoescala até um número mínimo de nós para evitar altos custos de parada.

  • Para um ambiente padronizado, use as políticas docompute para restringir o tamanho ou o recurso do cluster ou para definir o tamanho da camiseta do clusters (S, M, L).

Use os recursos de IA para aumentar a produtividade

Além de aumentar a produtividade, as ferramentas de IA também podem ajudar a identificar padrões nos erros e fornecer percepções adicionais com base na entrada. De modo geral, a incorporação dessas ferramentas ao processo de desenvolvimento pode reduzir muito os erros e facilitar a tomada de decisões, levando a um tempo de lançamento mais rápido.

O Databricks IQ, o mecanismo de conhecimento baseado em IA, está no centro da Data Intelligence Platform. Ele aproveita os metadados do Unity Catalog para entender suas tabelas, colunas, descrições e dados populares ativos em toda a organização para fornecer respostas personalizadas. Ele permite vários recursos que melhoram a produtividade ao trabalhar com a plataforma, como

  • O Databricks Assistant permite que o senhor consulte os dados por meio de uma interface de conversação, tornando-o mais produtivo no Databricks. Descreva sua tarefa em inglês e deixe o assistente gerar consultas SQL, explicar códigos complexos e corrigir erros automaticamente.

  • Os comentários gerados pela IA para qualquer tabela ou coluna de tabela gerenciada pelo site Unity Catalog aceleram o processo de gerenciamento de metadados. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de serem salvos. A Databricks recomenda enfaticamente a revisão humana dos comentários gerados por IA para verificar se há imprecisões.

4. Garanta a consistência e usabilidade dos dados

Ofereça dados como produtos reutilizáveis nos quais a empresa pode confiar

As organizações que buscam se tornar IA e data-driven geralmente precisam fornecer às suas equipes internas dados confiáveis e de alta qualidade. Uma abordagem para priorizar a qualidade e a usabilidade é aplicar o pensamento de produto aos seus dados ativos publicados, criando um "produto de dados" bem definido. A criação desse produto de dados garante que as organizações estabeleçam padrões e uma base confiável de verdade comercial para seus dados e metas de AI. Em última análise, o produto de dados agrega valor quando os usuários e os aplicativos têm os dados certos, no momento certo, com a qualidade certa e no formato certo. Embora esse valor tenha sido tradicionalmente obtido na forma de operações mais eficientes por meio de custos mais baixos, processos mais rápidos e riscos reduzidos, o moderno produto de dados também pode abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados no ecossistema de indústrias ou parceiros de uma organização.

Veja a postagem no blog Building High-Quality and Trusted Data produto with Databricks.

Publique produtos de dados semanticamente consistentes em toda a empresa

Em geral, um data lake contém dados de vários sistemas de origem. Esses sistemas podem ter nomes diferentes para o mesmo conceito (por exemplo, cliente vs. cliente ) ou usar o mesmo identificador para se referir a conceitos diferentes. account) ou usar o mesmo identificador para se referir a conceitos diferentes. Para que os usuários corporativos possam combinar facilmente esses conjuntos de dados de forma significativa, os dados devem ser homogêneos em todas as fontes para serem semanticamente consistentes. Além disso, para que alguns dados sejam valiosos para análise, as regras internas de negócios, como o reconhecimento de receita, devem ser aplicadas corretamente. Para garantir que todos os usuários estejam usando os dados corretamente interpretados, o conjunto de dados com essas regras deve ser disponibilizado e publicado em Unity Catalog. O acesso aos dados de origem deve ser restrito às equipes que entendem o uso correto.

Fornecer um catálogo central para descoberta e linhagem

Um catálogo central para descoberta e linhagem ajuda os consumidores de dados a acessar dados de várias fontes em toda a empresa, reduzindo assim a sobrecarga operacional para a equipe central de governança.

Em Unity Catalog, os administradores e gerenciadores de dados gerenciam os usuários e seu acesso aos dados de forma centralizada em todos os espaços de trabalho em um Databricks account. Usuários em diferentes espaços de trabalho podem compartilhar os mesmos dados e, dependendo dos privilégios de usuário concedidos centralmente em Unity Catalog, podem acessar os dados juntos.

Para o descobrimento de dados, o Unity Catalog oferece suporte aos usuários com recursos como

  • O Catalog Explorer é a principal interface de usuário para muitos recursos do Unity Catalog. O senhor pode usar o Catalog Explorer para view detalhes do esquema, visualizar dados de amostra e view detalhes e propriedades da tabela. Os administradores podem view e alterar os proprietários, e os administradores e proprietários de objetos de dados podem conceder e revogar permissões. Também é possível usar o Databricks Search, que permite que os usuários encontrem dados ativos de forma fácil e contínua (como tabelas, colunas, visualizações, painéis, modelos etc.). São mostrados aos usuários resultados relevantes para suas solicitações de pesquisa e aos quais eles têm acesso.

  • linhagem de dados em todas as consultas executadas em um Databricks cluster ou SQL warehouse. A linhagem é compatível com todos os idiomas e é capturada até o nível da coluna. Os dados de linhagem incluem Notebook, fluxo de trabalho e dashboards relacionados à consulta. A linhagem pode ser visualizada no Catalog Explorer quase em tempo real e recuperada com a API REST da Databricks.

Para permitir que as empresas ofereçam a seus usuários um view holístico de todos os dados em todas as plataformas de dados, o Unity Catalog> oferece integração com o catálogo de dados da empresa (às vezes chamado de "catálogo de catálogos").