Migrar aplicativos de dados para Databricks

Este artigo fornece uma introdução à migração de aplicativos de dados existentes para Databricks. O Databricks fornece uma abordagem unificada que permite trabalhar com dados de vários sistemas de origem em uma única plataforma.

Para obter uma visão geral dos recursos da plataforma, consulte O que é Databricks?.

Para obter informações sobre a migração entre versões do Databricks Runtime, consulte o guia de migração do Databricks Runtime.

Migrar Job ETL para databricks

Você pode migrar o Apache Spark Job usado para extrair, transformar e carregar dados de implementações cloud locais ou nativas para Databricks com apenas alguns passos. Consulte Adaptar seu código existente do Apache Spark para Databricks.

O Databricks estende a funcionalidade do Spark SQL com integrações de código aberto pré-configuradas, integrações de parceiros e ofertas de produtos corporativos. Se suas cargas de trabalho ETL forem escritas em SQL ou Hive, você poderá migrar para Databricks com refatoração mínima. Saiba mais sobre as ofertas Databricks SQL :

Para obter instruções específicas sobre como migrar de vários sistemas de origem para Databricks, consulte Migrar pipelines ETL para Databricks.

Substitua seu data warehouse corporativo por um lakehouse

O Databricks fornece valor e desempenho ideais quando as cargas de trabalho se alinham em torno dos dados armazenados no lakehouse. Muitas pilhas de dados corporativos incluem um data lake e um data warehouse corporativo, e as organizações criam um fluxo de trabalho ETL complexo para tentar manter esses sistemas e dados sincronizados. O lakehouse permite que você use os mesmos dados, armazenados no data lake, em query e sistemas que geralmente dependem de um data warehouse separado. Para obter mais informações sobre o lakehouse, consulte O que é um data lakehouse?. Para obter mais informações sobre data warehousing no Databricks, consulte O que é data warehousing no Databricks?.

A migração de um data warehouse corporativo para o lakehouse geralmente envolve a redução da complexidade da arquitetura de dados e do fluxo de trabalho, mas há algumas advertências e práticas recomendadas a serem lembradas ao concluir esse trabalho. Consulte Migrar o seu data warehouse para o Databricks lakehouse.

Unifique suas cargas de trabalho de ML, ciência de dados e análises

Como o lakehouse fornece acesso otimizado a arquivos de dados baseados em cloudpor meio de query de tabela ou caminhos de arquivo, você pode fazer ML, ciência de dados e análise em uma única cópia de seus dados. O Databricks facilita a movimentação de cargas de trabalho de ferramentas proprietárias e de código aberto e mantém versões atualizadas de muitas bibliotecas de código aberto usadas por analistas e cientistas de dados.

As cargas de trabalho do Pandas no Jupyter Notebook podem ser sincronizadas e executadas usando as pastas Git do Databricks. A Databricks oferece suporte nativo para Pandas em todas as versões do Databricks Runtime e configura muitas bibliotecas populares de ML e deep learning no Databricks Runtime for Machine Learning. Se o senhor sincronizar as cargas de trabalho locais usando o Git e os arquivos do espaço de trabalho em pastas do Git, poderá usar os mesmos caminhos relativos para os dados e as bibliotecas personalizadas presentes no ambiente local.

Observação

Em default, a Databricks mantém .ipynb extensões para o Jupyter Notebook sincronizadas com as pastas Git da Databricks, mas converte automaticamente o Jupyter Notebook para o Databricks Notebook quando importado com a UI. O Databricks Notebook é salvo com uma extensão .py e, portanto, pode viver lado a lado com o Jupyter Notebook em um repositório Git.