Pular para o conteúdo principal

Migre seu data warehouse para o Databricks lakehouse

Este artigo descreve algumas das considerações e ressalvas a serem consideradas quando o senhor substituir o data warehouse corporativo pelo Databricks lakehouse. A maioria das cargas de trabalho, consultas e painéis definidos no data warehouse corporativo pode ser executada com o mínimo de refatoração de código depois que os administradores concluírem a migração inicial de dados e a configuração de governança. Migrar suas cargas de trabalho de data warehousing para a Databricks não significa eliminar o data warehousing, mas sim unificar seu ecossistema de dados. Para saber mais sobre data warehousing em Databricks, consulte data warehousing em Databricks.

Muitas cargas de trabalho do site Apache Spark extraem, transformam e carregam (ETL) dados dos sistemas de origem para o data warehouse para alimentar a análise downstream. A substituição do data warehouse corporativo por um lakehouse permite que o analista, o data scientists e o engenheiro de dados trabalhem com as mesmas tabelas na mesma plataforma, reduzindo a complexidade geral, os requisitos de manutenção e o custo total de propriedade. Consulte O que é um data lakehouse? Para obter uma visão geral de como aplicar os padrões de design do data warehouse em um lakehouse, consulte a arquitetura de data warehousing.

Carregar dados no lakehouse

O Databricks fornece várias ferramentas e recursos para facilitar a migração de dados para o lakehouse e configurar trabalhos de ETL para carregar dados de diversas fontes de dados. Os artigos a seguir apresentam essas ferramentas e opções:

Qual é a diferença entre a Databricks Data Intelligence Platform e um data warehouse corporativo?

A Plataforma de Inteligência de Dados Databricks foi desenvolvida com base em Apache Spark, Unity Catalog e Delta Lake, oferecendo suporte nativo para cargas de trabalho big data para analítica, ML e engenharia de dados. Todos os sistemas de dados corporativos têm garantias transacionais, padrões de indexação e otimização e sintaxe SQL ligeiramente diferentes. Algumas das maiores diferenças que você pode descobrir incluem as seguintes:

  • Todas as transações estão no nível da tabela. Não há transações, bloqueios ou garantias em nível de banco de dados.
  • Não há construções BEGIN e END, o que significa que cada instrução ou consulta é executada como uma transação separada.
  • Os espaço de nomes de três camadas usa o padrão catalog.schema.table. Os termos database e schema são sinônimos devido à sintaxe antiga do Apache Spark.
  • As restrições primárias key e estrangeiras key são apenas informativas. As restrições só podem ser aplicadas no nível da tabela. Consulte Restrições em Databricks.
  • Os tipos de dados nativos compatíveis no Databricks e no Delta Lake podem ser ligeiramente diferentes dos sistemas de origem. A precisão necessária para tipos numéricos deve ser claramente indicada antes que os tipos de destino sejam escolhidos.

Os artigos a seguir fornecem contexto adicional sobre considerações importantes: