Migre seu data warehouse para o Databricks lakehouse
Este artigo descreve algumas das considerações e ressalvas a serem consideradas quando o senhor substituir o data warehouse corporativo pelo Databricks lakehouse. A maioria das cargas de trabalho, consultas e painéis definidos no data warehouse corporativo pode ser executada com o mínimo de refatoração de código depois que os administradores concluírem a migração inicial de dados e a configuração de governança. Migrar suas cargas de trabalho de data warehousing para a Databricks não significa eliminar o data warehousing, mas sim unificar seu ecossistema de dados. Para obter mais informações sobre data warehousing em Databricks, consulte O que é data warehousing em Databricks?
Muitas cargas de trabalho do site Apache Spark extraem, transformam e carregam (ETL) dados dos sistemas de origem para o data warehouse para alimentar a análise downstream. A substituição do data warehouse corporativo por um lakehouse permite que o analista, o data scientists e o engenheiro de dados trabalhem com as mesmas tabelas na mesma plataforma, reduzindo a complexidade geral, os requisitos de manutenção e o custo total de propriedade. Consulte O que é um data lakehouse? Para obter mais informações sobre data warehousing em Databricks, consulte O que é data warehousing em Databricks?
Carregar dados no lakehouse
O Databricks fornece várias ferramentas e recursos para facilitar a migração de dados para o lakehouse e configurar trabalhos de ETL para carregar dados de diversas fontes de dados. Os artigos a seguir apresentam essas ferramentas e opções:
- Migre um Parquet data lake para o Delta Lake
- O que é a Lakehouse Federation?
- O que é o Databricks Partner Connect?
- Ingerir dados em um site Databricks lakehouse
- O que é DLT?
Qual é a diferença entre a Databricks Data Intelligence Platform e um data warehouse corporativo?
A Plataforma de Inteligência de Dados Databricks foi desenvolvida com base em Apache Spark, Unity Catalog e Delta Lake, oferecendo suporte nativo para cargas de trabalho big data para analítica, ML e engenharia de dados. Todos os sistemas de dados corporativos têm garantias transacionais, padrões de indexação e otimização e sintaxe SQL ligeiramente diferentes. Algumas das maiores diferenças que você pode descobrir incluem as seguintes:
- Todas as transações estão no nível da tabela. Não há transações, bloqueios ou garantias em nível de banco de dados.
- Não há construções
BEGIN
eEND
, o que significa que cada instrução ou consulta é executada como uma transação separada. - Os espaço de nomes de três camadas usa o padrão
catalog.schema.table
. Os termosdatabase
eschema
são sinônimos devido à sintaxe antiga do Apache Spark. - As restrições primárias key e estrangeiras key são apenas informativas. As restrições só podem ser aplicadas no nível da tabela. Consulte Restrições em Databricks.
- Os tipos de dados nativos compatíveis no Databricks e no Delta Lake podem ser ligeiramente diferentes dos sistemas de origem. A precisão necessária para tipos numéricos deve ser claramente indicada antes que os tipos de destino sejam escolhidos.
Os artigos a seguir fornecem contexto adicional sobre considerações importantes: