Pular para o conteúdo principal

Migre seu data warehouse para o Databricks lakehouse

Este artigo descreve algumas das considerações e ressalvas a serem consideradas quando o senhor substituir o data warehouse corporativo pelo Databricks lakehouse. A maioria das cargas de trabalho, consultas e painéis definidos no data warehouse corporativo pode ser executada com o mínimo de refatoração de código depois que os administradores concluírem a migração inicial de dados e a configuração de governança. Migrar suas cargas de trabalho de data warehousing para a Databricks não significa eliminar o data warehousing, mas sim unificar seu ecossistema de dados. Para obter mais informações sobre data warehousing em Databricks, consulte O que é data warehousing em Databricks?

Muitas cargas de trabalho do site Apache Spark extraem, transformam e carregam (ETL) dados dos sistemas de origem para o data warehouse para alimentar a análise downstream. A substituição do data warehouse corporativo por um lakehouse permite que o analista, o data scientists e o engenheiro de dados trabalhem com as mesmas tabelas na mesma plataforma, reduzindo a complexidade geral, os requisitos de manutenção e o custo total de propriedade. Consulte O que é um data lakehouse? Para obter mais informações sobre data warehousing em Databricks, consulte O que é data warehousing em Databricks?

Carregar dados no lakehouse

O Databricks fornece várias ferramentas e recursos para facilitar a migração de dados para o lakehouse e configurar trabalhos de ETL para carregar dados de diversas fontes de dados. Os artigos a seguir apresentam essas ferramentas e opções:

Qual é a diferença entre a Databricks Data Intelligence Platform e um data warehouse corporativo?

A Plataforma de Inteligência de Dados Databricks foi desenvolvida com base em Apache Spark, Unity Catalog e Delta Lake, oferecendo suporte nativo para cargas de trabalho big data para analítica, ML e engenharia de dados. Todos os sistemas de dados corporativos têm garantias transacionais, padrões de indexação e otimização e sintaxe SQL ligeiramente diferentes. Algumas das maiores diferenças que você pode descobrir incluem as seguintes:

  • Todas as transações estão no nível da tabela. Não há transações, bloqueios ou garantias em nível de banco de dados.
  • Não há construções BEGIN e END, o que significa que cada instrução ou consulta é executada como uma transação separada.
  • Os espaço de nomes de três camadas usa o padrão catalog.schema.table. Os termos database e schema são sinônimos devido à sintaxe antiga do Apache Spark.
  • As restrições primárias key e estrangeiras key são apenas informativas. As restrições só podem ser aplicadas no nível da tabela. Consulte Restrições em Databricks.
  • Os tipos de dados nativos compatíveis no Databricks e no Delta Lake podem ser ligeiramente diferentes dos sistemas de origem. A precisão necessária para tipos numéricos deve ser claramente indicada antes que os tipos de destino sejam escolhidos.

Os artigos a seguir fornecem contexto adicional sobre considerações importantes: