Interoperabilidade e Usabilidade para Databricks
Este artigo abrange os princípios arquitetônicos do pilar de **interoperabilidade e usabilidade**, referindo-se à interação da plataforma Databricks com usuários e outros sistemas. Uma das ideias fundamentais da Databricks é fornecer uma ótima experiência do usuário para todas as personas que trabalham com ela e ser capaz de interagir com um amplo ecossistema de sistemas externos.
- Interoperabilidade é a capacidade de um sistema trabalhar e se integrar a outros sistemas. Isso implica a interação entre diferentes componentes e produtos, possivelmente de vários fornecedores, e entre versões passadas e futuras do mesmo produto.
- A usabilidade é a medida de quão bem um sistema permite que os usuários realizem a tarefa com segurança, eficácia e eficiência.

Seguir os princípios desse pilar ajuda a:
- Obtenha uma experiência de usuário consistente e colaborativa.
- Aproveite as sinergias entre as nuvens.
- Simplifique a integração de e para a Databricks.
- Reduzir os custos de treinamento e capacitação.
E, por fim, leva a um tempo de valorização mais rápido.
Princípios de interoperabilidade e usabilidade
-
Defina padrões para integração
A integração tem aspectos diferentes e pode ser feita de várias maneiras diferentes. Para evitar a proliferação de ferramentas e abordagens, as melhores práticas devem ser definidas e uma lista de ferramentas e conectores bem suportados e preferidos deve ser fornecida.
Um dos princípios arquitetônicos do key é a modularidade e o acoplamento frouxo, em vez da integração rígida. Isso reduz as dependências entre componentes e cargas de trabalho, ajuda a eliminar efeitos colaterais e permite o desenvolvimento independente em diferentes escalas de tempo. Use o conjunto de dados e seu esquema como um contrato. Separe as cargas de trabalho, como o trabalho de manipulação de dados (como o carregamento e a transformação de dados em um data lake), do trabalho de agregação de valor (por exemplo, relatórios, painéis e ciência de dados, recurso de engenharia). Definir um catálogo central de dados com diretrizes para formatos de dados, qualidade de dados e ciclo de vida de dados.
-
Use interfaces abertas e formatos de dados abertos
Muitas vezes, soluções são desenvolvidas onde os dados só podem ser acessados por meio de um sistema específico. Isso pode levar à dependência do fornecedor, mas também pode se tornar um grande impulsionador de custos se o acesso aos dados por meio desse sistema estiver sujeito a taxas de licença. O uso de formatos e interfaces de dados abertos ajuda a evitar isso. Eles também simplificam a integração com sistemas existentes e abrem um ecossistema de parceiros que já integraram suas ferramentas com o Databricks.
Se o senhor usar ecossistemas de código aberto, como Python ou R para ciência de dados, ou Spark ou ANSI SQL para acesso a dados e controle de direitos de acesso, terá mais facilidade para encontrar pessoal para os projetos. Isso também simplificará possíveis migrações de e para uma plataforma.
-
Simplifique a implementação de novos casos de uso
Para aproveitar ao máximo os dados em data lake, os usuários devem ser capazes de implantar facilmente seus casos de uso na plataforma. Isso começa com processos enxutos em torno do acesso à plataforma e da gestão de dados. Por exemplo, o acesso de autosserviço à plataforma ajuda a evitar que uma equipe central se torne um gargalo. Ambientes compartilhados e modelos predefinidos para a implantação de novos ambientes garantem que a plataforma esteja rapidamente disponível para qualquer usuário corporativo.
-
Garanta a consistência e a usabilidade dos dados
Duas atividades importantes em uma plataforma de dados são a publicação e o consumo de dados . Do ponto de vista da publicação, os dados devem ser oferecidos como um produto. Os editores precisam seguir um ciclo de vida definido com os consumidores em mente, e os dados precisam ser claramente definidos com esquemas gerenciais, descrições e assim por diante.
Também é importante fornecer dados semanticamente consistentes para que os consumidores possam facilmente entender e combinar corretamente diferentes conjuntos de dados. Além disso, todos os dados devem ser facilmente detectáveis e acessíveis aos consumidores por meio de um catálogo central com metadados e linhagem de dados devidamente selecionados.
Próximo: Melhores práticas para interoperabilidade e usabilidade
Consulte as melhores práticas para interoperabilidade e usabilidade.