Pular para o conteúdo principal

Migrar aplicativos de dados para o Databricks

Este artigo apresenta uma introdução à migração de aplicativos de dados existentes para Databricks. A Databricks oferece uma abordagem unificada que permite trabalhar com dados de vários sistemas de origem em uma única plataforma.

Para obter uma visão geral dos recursos da plataforma, consulte O que é Databricks?

Migrar o trabalho de ETL para Databricks

O senhor pode migrar o Apache Spark Job usado para extrair, transformar e carregar dados de implementações locais ou nativas na nuvem para o Databricks com apenas algumas etapas. Consulte Adaptar seu código Apache Spark existente para o Databricks.

Databricks amplia a funcionalidade do site Spark SQL com integrações de código aberto pré-configuradas, integrações de parceiros e ofertas de produtos empresariais. Se suas cargas de trabalho de ETL forem escritas em SQL ou Hive, o senhor poderá migrar para o Databricks com o mínimo de refatoração. Saiba mais sobre as ofertas do site Databricks SQL:

Para obter instruções específicas sobre como migrar de vários sistemas de origem para Databricks, consulte Migrar o pipeline ETL para Databricks.

Substitua o data warehouse de sua empresa por um lakehouse

O Databricks oferece valor e desempenho ideais quando as cargas de trabalho se alinham em torno dos dados armazenados no lakehouse. Muitas pilhas de dados empresariais incluem um data lake e um data warehouse empresarial, e as organizações criam um ETL fluxo de trabalho complexo para tentar manter esses sistemas e dados sincronizados. O lakehouse permite que o senhor use os mesmos dados, armazenados no data lake, em consultas e sistemas que normalmente dependem de um data warehouse separado. Para saber mais sobre o lakehouse, consulte O que é um data lakehouse? Para obter mais informações sobre data warehousing em Databricks, consulte O que é data warehousing em Databricks?

A migração de uma empresa data warehouse para o lakehouse geralmente envolve a redução da complexidade da arquitetura de dados e do fluxo de trabalho, mas há algumas ressalvas e práticas recomendadas que o senhor deve ter em mente ao concluir esse trabalho. Consulte Migrar seu data warehouse para o Databricks lakehouse.

Unifique suas cargas de trabalho de ML, ciência de dados e analítica

Como o lakehouse fornece acesso otimizado a arquivos de dados baseados na nuvem por meio de consultas de tabelas ou caminhos de arquivos, o senhor pode fazer ML, ciência de dados e análises em uma única cópia dos seus dados. Databricks facilita a transferência de cargas de trabalho do código aberto e de ferramentas proprietárias, além de manter versões atualizadas de muitas das bibliotecas de código aberto usadas pelo analista e pelo data scientists.

Pandas As cargas de trabalho no Jupyter Notebook podem ser sincronizadas e executadas usando as pastasDatabricks Git. Databricks oferece suporte nativo para Pandas em todas as versões de Databricks Runtime e configura muitas das populares ML e aprendizagem profunda biblioteca em Databricks Runtime para Machine Learning. Se o senhor sincronizar as cargas de trabalho locais usando Git os workspace arquivos e nas pastas, poderá usar os mesmos caminhos relativos para os dados e a biblioteca personalizada presentes no Git ambiente local.

nota

Por default, Databricks mantém .ipynb extensões para o Jupyter Notebook sincronizadas com as pastas Databricks Git , mas converte automaticamente o Jupyter Notebook para Databricks Notebook quando importado com a UI. Databricks Notebook salvo com uma extensão .py e, portanto, pode viver lado a lado com o Jupyter Notebook em um repositório Git.