Pular para o conteúdo principal

Interoperabilidade e usabilidade para o data lakehouse

Este artigo aborda os princípios arquitetônicos do pilar de interoperabilidade e usabilidade , referentes à interação do lakehousecom usuários e outros sistemas. Uma das ideias fundamentais da lakehouse é proporcionar uma excelente experiência de usuário para todas as pessoas que trabalham com ela e poder interagir com um amplo ecossistema de sistemas externos.

  • Interoperabilidade é a capacidade de um sistema trabalhar e se integrar a outros sistemas. Isso implica a interação entre diferentes componentes e produtos, possivelmente de vários fornecedores, e entre versões passadas e futuras do mesmo produto.
  • A usabilidade é a medida de quão bem um sistema permite que os usuários realizem a tarefa com segurança, eficácia e eficiência.

Diagrama de arquitetura lakehouse de interoperabilidade e usabilidade para Databricks.

Seguir os princípios desse pilar ajuda a:

  • Obtenha uma experiência de usuário consistente e colaborativa.
  • Aproveite as sinergias entre as nuvens.
  • Simplifique a integração de e para o site lakehouse.
  • Reduzir os custos de treinamento e capacitação.

E, por fim, leva a um tempo de valorização mais rápido.

Princípios de interoperabilidade e usabilidade

  1. Defina padrões para integração

    A integração tem aspectos diferentes e pode ser feita de várias maneiras diferentes. Para evitar a proliferação de ferramentas e abordagens, as melhores práticas devem ser definidas e uma lista de ferramentas e conectores bem suportados e preferidos deve ser fornecida.

    Um dos princípios arquitetônicos do key é a modularidade e o acoplamento frouxo, em vez da integração rígida. Isso reduz as dependências entre componentes e cargas de trabalho, ajuda a eliminar efeitos colaterais e permite o desenvolvimento independente em diferentes escalas de tempo. Use o conjunto de dados e seu esquema como um contrato. Separe as cargas de trabalho, como o trabalho de manipulação de dados (como o carregamento e a transformação de dados em um data lake), do trabalho de agregação de valor (por exemplo, relatórios, painéis e ciência de dados, recurso de engenharia). Definir um catálogo central de dados com diretrizes para formatos de dados, qualidade de dados e ciclo de vida de dados.

  2. Use interfaces abertas e formatos de dados abertos

    Muitas vezes, são desenvolvidas soluções em que os dados só podem ser acessados por meio de um sistema específico. Isso pode levar à dependência de um fornecedor, mas também pode se tornar um grande fator de custo se o acesso aos dados por meio desse sistema estiver sujeito às taxas de licença. Usar formatos e interfaces de dados abertos ajuda a evitar isso. Eles também simplificam a integração com os sistemas existentes e abrem um ecossistema de parceiros que já integraram suas ferramentas à lakehouse.

    Se o senhor usar ecossistemas de código aberto, como Python ou R para ciência de dados, ou Spark ou ANSI SQL para acesso a dados e controle de direitos de acesso, terá mais facilidade para encontrar pessoal para os projetos. Isso também simplificará possíveis migrações de e para uma plataforma.

  3. Simplifique a implementação de novos casos de uso

    Para aproveitar ao máximo os dados em data lake, os usuários devem ser capazes de implantar facilmente seus casos de uso na plataforma. Isso começa com processos enxutos em torno do acesso à plataforma e da gestão de dados. Por exemplo, o acesso de autosserviço à plataforma ajuda a evitar que uma equipe central se torne um gargalo. Ambientes compartilhados e modelos predefinidos para a implantação de novos ambientes garantem que a plataforma esteja rapidamente disponível para qualquer usuário corporativo.

  4. Garanta a consistência e a usabilidade dos dados

    Duas atividades importantes em uma plataforma de dados são a publicação e o consumo de dados . Do ponto de vista da publicação, os dados devem ser oferecidos como um produto. Os editores precisam seguir um ciclo de vida definido com os consumidores em mente, e os dados precisam ser claramente definidos com esquemas gerenciais, descrições e assim por diante.

    Também é importante fornecer dados semanticamente consistentes para que os consumidores possam facilmente entender e combinar corretamente diferentes conjuntos de dados. Além disso, todos os dados devem ser facilmente detectáveis e acessíveis aos consumidores por meio de um catálogo central com metadados e linhagem de dados devidamente selecionados.

Próximo: Melhores práticas para interoperabilidade e usabilidade

Consulte as melhores práticas para interoperabilidade e usabilidade.