Melhores práticas para interoperabilidade e usabilidade

Este artigo aborda as práticas recomendadas de interoperabilidade e usabilidade , organizadas pelos princípios arquitetônicos listados nas seções a seguir.

1. Defina padrões para integração

Use padrões de integração padrão e reutilizáveis para integração externa

Os padrões de integração são importantes porque fornecem diretrizes sobre como os dados devem ser representados, trocados e processados em diferentes sistemas e aplicativos. Esses padrões ajudam a garantir que os dados sejam compatíveis, de alta qualidade e interoperáveis em várias fontes e destinos.

O Databricks lakehouse vem com um abrangente REST API que permite que o senhor gerencie programaticamente quase todos os aspectos da plataforma. O REST API executa o servidor no plano de controle e fornece um endpoint unificado para gerenciar a plataforma Databricks.

A API REST fornece o nível mais baixo de integração que sempre pode ser usado. No entanto, a maneira preferida de se integrar ao Databricks é usar abstrações de nível mais alto, como os SDKs do Databricks ou as ferramentas CLI. CLI As ferramentas são baseadas em shelle permitem a fácil integração da plataforma Databricks em CI/CD e MLOps fluxo de trabalho.

Use conectores otimizados para ingerir fontes de dados no lakehouse

A Databricks oferece uma variedade de maneiras de ajudá-lo a ingerir dados no Delta Lake.

Databricks fornece conectores otimizados para serviços de transmissão de mensagens, como Apache Kafka para ingestão de dados em tempo quase real.
Databricks oferece integrações a muitos sistemas de dados nativos na nuvem e suporte extensível ao JDBC para conexão com outros sistemas de dados.
Uma opção para integrar a fonte de dados sem ETL é a lakehouse Federation. A lakehouse Federation é a plataforma de federação de consultas para Databricks. O termo federação de consultas descreve um conjunto de recursos que permite que usuários e sistemas executem consultas em várias fontes de dados sem precisar migrar todos os dados para um sistema unificado. A Databricks usa o Unity Catalog para gerenciar a federação de consultas. Unity Cataloggarantem que o acesso aos dados seja gerenciado e auditado para todas as consultas federadas executadas pelos usuários em seu espaço de trabalho Databricks.

nota

Qualquer consulta na plataforma Databricks que use uma fonte da Lakehouse Federation é enviada para essa fonte. Certifique-se de que o sistema de origem possa lidar com a carga. Além disso, esteja ciente de que, se o sistema de origem for implantado em uma região de nuvem ou nuvem diferente, haverá um custo de saída para cada consulta.

Considere a possibilidade de descarregar o acesso aos bancos de dados subjacentes por meio da visualização materializada para evitar cargas altas/concorrentes nos bancos de dados operacionais e reduzir os custos de saída.

Usar ferramentas de parceiros certificados

As organizações têm necessidades diferentes e nenhuma ferramenta única pode atender a todas elas. Partner Connect permite que o senhor explore e se integre facilmente com nossos parceiros, que cobrem todos os aspectos do lakehouse: ingestão de dados, preparação e transformações, BI e visualização, aprendizado de máquina, qualidade de dados e muito mais. Partner Connect permite que o senhor crie uma conta de avaliação com o Databricks parceiro tecnológico selecionado e conecte seu Databricks workspace a parceiros de soluções a partir da interface do usuário Databricks. Experimente soluções de parceiros usando seus dados no Databricks lakehouse e, em seguida, adote as soluções que melhor atendam às suas necessidades comerciais.

Reduzir a complexidade do pipeline de engenharia de dados

Investir na redução da complexidade do pipeline de engenharia de dados permite escalabilidade, agilidade e flexibilidade para poder expandir e inovar mais rapidamente. O pipeline simplificado facilita gerenciar e adaptar todas as necessidades operacionais de uma engenharia de dados pipeline: orquestração de tarefas, gerenciamento de clustering, monitoramento, qualidade de dados e tratamento de erros.

DLT é uma estrutura para criar um pipeline de processamento de dados confiável, sustentável e testável. O senhor define as transformações que deseja realizar nos dados e o site DLT cuida da orquestração de tarefas, do gerenciamento de clustering, do monitoramento, da qualidade dos dados e do tratamento de erros. Veja DLT.

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que eles chegam ao armazenamento em nuvem. Ele pode ler arquivos de dados de forma confiável do armazenamento em nuvem. Um aspecto importante do DLT e do Auto Loader é sua natureza declarativa: Sem eles, é preciso criar um pipeline complexo que integre diferentes serviços de nuvem - como um serviço de notificação e um serviço de enfileiramento - para ler de forma confiável os arquivos de nuvem com base em eventos e combinar de forma confiável lotes e fontes de transmissão.

Auto Loader e DLT reduzem as dependências e a complexidade do sistema e melhoram muito a interoperabilidade com o armazenamento em nuvem e entre diferentes paradigmas, como lotes e transmissão. Como efeito colateral, a simplicidade do pipeline aumenta a usabilidade da plataforma.

Usar infraestrutura como código (IaC) para implementações e manutenção

O HashiCorp Terraform é uma ferramenta popular de código aberto para criar uma infraestrutura de nuvem segura e previsível em vários provedores de nuvem. Veja Excelência operacional: use a infraestrutura como código para implantações e manutenção

2. Utilize interfaces abertas e formatos de dados abertos

Use formatos de dados abertos

Usar um formato de dados aberto significa que não há restrições quanto ao seu uso. Isso é importante porque elimina as barreiras ao acesso e ao uso dos dados para análise e para impulsionar as percepções de negócios. Os formatos abertos, como os criados em Apache Spark, também adicionam recursos que aumentam o desempenho com suporte para transações ACID, transmissão unificada e processamento de muitos dados. Além disso, o código aberto é orientado pela comunidade, o que significa que a comunidade está constantemente trabalhando para aprimorar os recursos existentes e adicionar novos, facilitando para os usuários a obtenção do máximo de seus projetos.

O principal formato de dados usado na Data Intelligence Platform é o Delta Lake, um formato de dados totalmente aberto que oferece muitos benefícios, desde confiabilidade até aprimoramentos de desempenho. Consulte Use um formato de dados que suporte transações ACID e Melhores práticas para eficiência de desempenho.

Por ser de código aberto, o Delta Lake tem um grande ecossistema. Dezenas de ferramentas e aplicativos de terceiros oferecem suporte ao Delta Lake. Para melhorar ainda mais a interoperabilidade, as tabelas Delta podem ser lidas com clientes de leitura Iceberg. Uma única cópia dos arquivos de dados atende aos dois formatos, garantindo os metadados corretos para os diferentes leitores.

Habilite dados seguros e AI compartilhamento para todos os dados ativos

O compartilhamento de dados e o AI ativo podem levar a uma melhor colaboração e tomada de decisões. No entanto, ao compartilhar dados, é importante manter o controle, proteger seus dados e garantir compliance o cumprimento das leis e regulamentações relevantes de compartilhamento de dados.

Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhar dados de forma segura com outras organizações, independentemente das plataformas de computação que elas usam. Se quiser compartilhar dados com usuários fora do seu Databricks workspace, independentemente de eles usarem o Databricks, o senhor pode usar o open Delta Sharing para compartilhar seus dados com segurança. Se quiser compartilhar dados com usuários que tenham um Databricks workspace habilitado para Unity Catalog, o senhor pode usar Databricks-to-Databricks Delta Sharing.

Em ambos os casos, o senhor pode compartilhar tabelas, visualizações, volumes, modelos e o Notebook.

Use o protocolo aberto Delta Sharing para compartilhar dados com parceiros.

Delta Sharing oferece uma solução aberta para o compartilhamento seguro de dados em tempo real do seu site lakehouse para qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma nuvem ou em qualquer nuvem. Delta Sharing integra-se nativamente com o Unity Catalog, permitindo que as organizações gerenciem e auditem centralmente os dados compartilhados e o AI ativo em toda a empresa e compartilhem com confiança os dados e o AI ativo que atendem aos requisitos de segurança e compliance.

Os provedores de dados podem compartilhar dados em tempo real e modelos AI de onde eles estão armazenados na plataforma de dados, sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais dos dados e do AI compartilhamento porque os provedores de dados não precisam replicar os dados várias vezes em nuvens, regiões geográficas ou plataformas de dados para cada um de seus consumidores de dados.
Use Databricks-to-Databricks Delta Sharing entre os usuários de Databricks.

Se quiser compartilhar dados com usuários que não têm acesso ao seu Unity Catalog metastore, você pode usar Databricks-to-Databricks Delta Sharingdesde que os destinatários tenham acesso a um Databricks workspace que esteja habilitado para Unity Catalog. Databricks-to-Databricks O compartilhamento permite que o senhor compartilhe dados com usuários de outras contas Databricks, entre regiões de nuvem e entre provedores de nuvem. É uma ótima maneira de compartilhar dados com segurança em diferentes Unity Catalog metastores em seu próprio Databricks account.

Use padrões abertos para o gerenciamento do ciclo de vida do ML

Assim como o uso de um formato de dados de código aberto, o uso de padrões abertos para seu AI fluxo de trabalho tem benefícios semelhantes em termos de flexibilidade, agilidade, custo e segurança.

MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida de ML e AI. Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, integrada com recurso de segurança empresarial, alta disponibilidade e outros recursos do Databricks workspace , como gerenciamento de experimentos e execução e acompanhamento de revisão de notebooks.

Os principais componentes são o acompanhamento de experimentos para log e rastrear automaticamente ML e modelos de aprendizagem profunda, modelos como formato padrão para empacotamento de modelos de aprendizagem de máquina, um registro de modelos integrado com Unity Catalog e o modelo de serviço escalável e de nível empresarial.

3. Simplifique a implementação de novos casos de uso

Proporcionar uma experiência de autosserviço em toda a plataforma

Há vários benefícios de uma plataforma em que os usuários têm autonomia para usar as ferramentas e os recursos, dependendo de suas necessidades. Investir na criação de uma plataforma de autoatendimento facilita a escala para atender a mais usuários e aumenta a eficiência ao minimizar a necessidade de envolvimento humano para provisionar usuários, resolver problemas e processar solicitações de acesso.

A Databricks Data Intelligence Platform tem todos os recursos necessários para proporcionar uma experiência de autosserviço. Embora possa haver uma etapa de aprovação obrigatória, a melhor prática é automatizar totalmente a configuração quando uma unidade de negócios solicita acesso ao site lakehouse. Provisione automaticamente seu novo ambiente, sincronize usuários e use o site SSO para autenticação, forneça controle de acesso a dados compartilhados e armazene objetos separados para seus próprios dados, e assim por diante. Juntamente com um catálogo central de dados de conjuntos de dados semanticamente consistentes e prontos para os negócios, novas unidades de negócios podem acessar de forma rápida e segura os recursos do lakehouse e os dados de que precisam.

Use o site serverless compute

Para serverless compute na plataforma Databricks, a execução da camada compute no site do cliente Databricks account. Os administradores de nuvem não precisam mais gerenciar ambientes de nuvem complexos que exigem ajuste de cotas, criação e manutenção de recursos de rede e conexão com fontes de faturamento. Os usuários se beneficiam do clustering quase nulo startup latência e melhor simultaneidade de consulta.

Use o padrão predefinido compute

Os padrões predefinidos ajudam a controlar como o compute recurso pode ser usado ou criado pelos usuários: Limite a criação de clusters de usuários a configurações prescritas ou a um determinado número, simplifique a interface do usuário ou controle os custos limitando o custo máximo por clustering.

A plataforma de inteligência de dados faz isso de duas maneiras:

Forneça clustering compartilhado como ambientes imediatos para os usuários. Nesses clusters, use a autoescala até um número mínimo de nós para evitar altos custos de parada.
Para um ambiente padronizado, use as políticas docompute para restringir o tamanho do clustering ou recurso ou para definir o clustering do tamanho de uma camiseta (S, M, L).

Use os recursos do AI para aumentar a produtividade

Além de aumentar a produtividade, as ferramentas do AI também podem ajudar a identificar padrões de erros e fornecer percepções adicionais com base na entrada. No geral, incorporar essas ferramentas ao processo de desenvolvimento pode reduzir consideravelmente os erros e facilitar a tomada de decisões, reduzindo o tempo de lançamento.

Databricks O IQ, o mecanismo de conhecimento acionado por AI, está no centro da Data Intelligence Platform. Ele aproveita os metadados do Unity Catalog para entender suas tabelas, colunas, descrições e dados populares ativos em toda a organização para fornecer respostas personalizadas. Ele permite vários recursos que aumentam a produtividade ao trabalhar com a plataforma, como

O Databricks Assistant permite que o senhor consulte dados por meio de uma interface de conversação, tornando-o mais produtivo no Databricks. Descreva sua tarefa em inglês e deixe o assistente gerar consultas SQL, explicar códigos complexos e corrigir erros automaticamente.
AIOs comentários gerados para qualquer tabela ou coluna de tabela gerenciados pelo site Unity Catalog aceleram o processo de gerenciamento de metadados. Entretanto, os modelos do AI nem sempre são precisos e os comentários devem ser revisados antes de serem salvos. Databricks recomenda enfaticamente a revisão humana dos comentários gerados pelo AIpara verificar se há imprecisões.

4. Garanta a consistência e a usabilidade dos dados

Oferecer dados reutilizáveis como produto em que a empresa pode confiar

As organizações que buscam se tornar IA e data-driven geralmente precisam fornecer às suas equipes internas dados confiáveis e de alta qualidade. Uma abordagem para priorizar a qualidade e a usabilidade é aplicar o pensamento de produto aos seus dados ativos publicados, criando um "produto de dados" bem definido. A criação desse produto de dados garante que as organizações estabeleçam padrões e uma base confiável de veracidade comercial para seus dados e objetivos de AI. Em última análise, o produto de dados agrega valor quando os usuários e os aplicativos têm os dados certos, no momento certo, com a qualidade certa e no formato certo. Embora esse valor tenha sido tradicionalmente obtido na forma de operações mais eficientes por meio de custos mais baixos, processos mais rápidos e riscos reduzidos, o moderno produto de dados também pode abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados no ecossistema de indústrias ou parceiros de uma organização.

Veja a postagem no blog Building High-Quality and Trusted Data produto with Databricks.

Publicar produtos de dados semanticamente consistentes em toda a empresa

Em geral, um data lake contém dados de vários sistemas de origem. Esses sistemas podem ter nomes diferentes para o mesmo conceito (por exemplo, cliente vs. cliente ) ou usar o mesmo identificador para se referir a conceitos diferentes. account ) ou usar o mesmo identificador para se referir a conceitos diferentes. Para que os usuários corporativos possam combinar facilmente esses conjuntos de dados de forma significativa, os dados devem ser homogêneos em todas as fontes para serem semanticamente consistentes. Além disso, para que alguns dados sejam valiosos para análise, as regras internas de negócios, como o reconhecimento de receita, devem ser aplicadas corretamente. Para garantir que todos os usuários estejam usando os dados corretamente interpretados, o conjunto de dados com essas regras deve ser disponibilizado e publicado em Unity Catalog. O acesso aos dados de origem deve ser restrito às equipes que entendem o uso correto.

Forneça um catálogo central para descoberta e linhagem

Um catálogo central de descoberta e linhagem ajuda os consumidores de dados a acessar dados de várias fontes em toda a empresa, reduzindo assim a sobrecarga operacional da equipe central de governança.

Em Unity Catalog, os administradores e gerenciadores de dados gerenciam os usuários e seu acesso aos dados de forma centralizada em todos os espaços de trabalho em um Databricks account. Os usuários em diferentes espaços de trabalho podem compartilhar os mesmos dados e, dependendo dos privilégios de usuário concedidos centralmente em Unity Catalog, podem acessar os dados juntos.

Para o descobrimento de dados, o Unity Catalog oferece suporte aos usuários com recursos como

O Catalog Explorer é a principal interface de usuário para muitos recursos do Unity Catalog. O senhor pode usar o Catalog Explorer para view detalhes do esquema, visualizar dados de amostra e view detalhes e propriedades da tabela. Os administradores podem view e alterar os proprietários, e os administradores e proprietários de objetos de dados podem conceder e revogar permissões. Também é possível usar o Databricks Search, que permite que os usuários encontrem dados ativos de forma fácil e contínua (como tabelas, colunas, visualizações, painéis, modelos etc.). Os usuários recebem resultados que são relevantes para suas solicitações de pesquisa e aos quais eles têm acesso.
linhagem de dados em todas as consultas executadas em um Databricks clustering ou SQL warehouse. A linhagem é compatível com todos os idiomas e é capturada até o nível da coluna. Os dados de linhagem incluem Notebook, Job e dashboards relacionados à consulta. A linhagem pode ser visualizada no Catalog Explorer quase em tempo real e recuperada com a API REST da Databricks.

Para permitir que as empresas ofereçam a seus usuários um view holístico de todos os dados em todas as plataformas de dados, o Unity Catalog oferece integração com o catálogo de dados da empresa (às vezes chamado de "catálogo de catálogos").

1. Defina padrões para integração​

Use padrões de integração padrão e reutilizáveis para integração externa​

Use conectores otimizados para ingerir fontes de dados no lakehouse​

Usar ferramentas de parceiros certificados​

Reduzir a complexidade do pipeline de engenharia de dados​

Usar infraestrutura como código (IaC) para implementações e manutenção​

2. Utilize interfaces abertas e formatos de dados abertos​

Use formatos de dados abertos​

Habilite dados seguros e AI compartilhamento para todos os dados ativos​

Use padrões abertos para o gerenciamento do ciclo de vida do ML​

3. Simplifique a implementação de novos casos de uso​

Proporcionar uma experiência de autosserviço em toda a plataforma​

Use o site serverless compute​

Use o padrão predefinido compute​

Use os recursos do AI para aumentar a produtividade​

4. Garanta a consistência e a usabilidade dos dados​

Oferecer dados reutilizáveis como produto em que a empresa pode confiar​

Publicar produtos de dados semanticamente consistentes em toda a empresa​

Forneça um catálogo central para descoberta e linhagem​