Migre seu data warehouse para o Databricks lakehouse

Este artigo descreve algumas das considerações e ressalvas a serem consideradas ao substituir o data warehouse da sua empresa pelo Databricks Lakehouse. A maioria das cargas de trabalho, consultas e painéis definidos em data warehouses corporativos pode ser executada com o mínimo de refatoração de código, uma vez que os administradores tenham concluído a migração inicial de dados e a configuração de governança. Migrar suas cargas de trabalho de data warehousing para a Databricks não significa eliminar o data warehousing, mas sim unificar seu ecossistema de dados. Para saber mais sobre data warehousing no Databricks, consulte O que é data warehousing no Databricks?.

Muitas cargas de trabalho do Apache Spark extraem, transformam e carregam dados (ETL) de sistemas de origem em data warehouse para potencializar análises downstream. Substituir seu data warehouse corporativo por um lakehouse permite que analista, cientista de dados e engenheiro de dados trabalhem nas mesmas tabelas na mesma plataforma, reduzindo a complexidade geral, os requisitos de manutenção e o custo total de propriedade. Consulte O que é um data lakehouse?. Para obter mais informações sobre data warehousing no Databricks, consulte O que é data warehousing no Databricks?.

Carregue dados no lakehouse

O Databricks fornece várias ferramentas e recursos para facilitar a migração de dados para o lakehouse e configurar trabalhos de ETL para carregar dados de diversas fontes de dados. Os artigos a seguir apresentam essas ferramentas e opções:

Qual a diferença entre a plataforma de inteligência de dados Databricks e um data warehouse empresarial?

A plataforma de inteligência de dados Databricks é construída sobre Apache Spark, Unity Catalog e Delta Lake, fornecendo suporte nativo para cargas de trabalho de big data para análise, ML e data engineering. Todos os sistemas de dados corporativos têm garantias transacionais, padrões de indexação e otimização e sintaxe SQL ligeiramente diferentes. Algumas das maiores diferenças que você pode descobrir incluem o seguinte:

  • Todas as transações estão no nível da tabela. Não há transações, bloqueios ou garantias em nível de banco de dados.

  • Não há construções BEGIN e END, o que significa que cada instrução ou consulta é executada como uma transação separada.

  • Os espaço de nomes de três camadas usa o padrão catalog.schema.table. Os termos database e schema são sinônimos devido à sintaxe antiga do Apache Spark.

  • As restrições de chave primária e chave estrangeira são apenas informativas. As restrições só podem ser impostas no nível da tabela. Consulte Restrições em bancos de dados.

  • Os tipos de dados nativos compatíveis no Databricks e no Delta Lake podem ser ligeiramente diferentes dos sistemas de origem. A precisão necessária para tipos numéricos deve ser claramente indicada antes que os tipos de destino sejam escolhidos.

Os artigos a seguir fornecem contexto adicional sobre considerações importantes: