Pular para o conteúdo principal

Apache Spark no Databricks

Apache Spark está no coração da Databricks Data Intelligence Platform e é a tecnologia que alimenta clusters compute e SQL warehouse. O Databricks é uma plataforma otimizada para o Apache Spark que fornece uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.

Qual é a relação do Apache Spark com o Databricks?

A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem colaboradores de muitas empresas importantes, incluindo a Databricks.

Databricks continua a desenvolver e lançar recursos para Apache Spark. O Databricks Runtime, que alimenta Databricks, inclui otimizações adicionais e recursos proprietários que se baseiam e estendem Apache Spark, incluindo Photon, uma camada de execução otimizada que pode ser usada em conjunto com Spark. O Databricks Photon foi projetado para trabalhar e melhorar o desempenho das cargas de trabalho do Apache Spark. O Photon melhora o desempenho do Spark vetorizando consultas e outras operações, permitindo uma execução mais rápida de operações de SQL e DataFrame API.

Como o Databricks é otimizado para o Apache Spark?

No Apache Spark, todas as operações são definidas como transformações ou ações.

  • transformações : adicione alguma lógica de processamento ao plano. Exemplos incluem leitura de dados, junções, agregações e conversão de tipos.
  • Ações : aciona a lógica de processamento para avaliar e gerar um resultado. Exemplos incluem gravações, exibição ou visualização de resultados, armazenamento em cache manual ou obtenção da contagem de linhas.

O Apache Spark usa um modelo de execução lenta , o que significa que nenhuma lógica definida por uma coleção de operações é avaliada até que uma ação seja acionada. Para evitar avaliações desnecessárias de lógica, use apenas ações para salvar resultados em uma tabela de destino.

Como as ações representam um gargalo de processamento para otimizar a lógica, a Databricks adicionou inúmeras otimizações além daquelas já presentes no Apache Spark para garantir a execução ideal da lógica. Essas otimizações consideram todas as transformações desencadeadas por uma determinada ação de uma só vez e encontram o plano ótimo com base na disponibilidade física dos dados. Armazenar dados em cache manualmente ou retornar resultados de visualização no pipeline de produção pode interromper essas otimizações e levar a aumentos de custo e latência.

Como o Apache Spark funciona no Databricks?

Quando você implanta um cluster compute ou SQL warehouse no Databricks, Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar ou inicializar um contexto Spark ou uma sessão Spark , pois eles são gerenciados para você pelo Databricks.

Posso usar o Databricks sem usar o Apache Spark?

Sim. Databricks suporta uma variedade de cargas de trabalho e inclui código aberto biblioteca no Databricks Runtime. O Databricks SQL usa o Photon internamente, mas os usuários finais podem usar a sintaxe Spark SQL para criar e consultar objetos de banco de dados com o Photon.

Databricks Runtime for Machine Learning é otimizado para cargas de trabalho ML , e muitos data scientists usam bibliotecas de código aberto primárias como TensorFlow e Scikit-Learn enquanto trabalham no Databricks. Você pode usar o Job para programar cargas de trabalho arbitrárias contra recursos compute implantados e gerenciados pelo Databricks.

Por que usar o Apache Spark no Databricks?

A plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implementar soluções empresariais que acompanham o seu negócio. Os funcionários da Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.

Como posso aprender mais sobre como usar o Apache Spark no Databricks?

Para começar a usar o Apache Spark no Databricks, comece agora mesmo! O tutorial do Apache Spark DataFrames explica como carregar e transformar dados em Python, R ou Scala. Veja tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames. Para outros guias e links para informações adicionais, consulte Apache Spark no Databricks.

Para obter informações adicionais sobre o suporte às linguagens Python, R e Scala no Spark, consulte PySpark no Databricks, Sparklyr e Databricks para desenvolvedores Scala, bem como em Referência para APIs Apache Spark.