Apache Spark na Databricks
Este artigo descreve como o site Apache Spark está relacionado ao site Databricks e à Plataforma de Inteligência de Dados Databricks.
Apache Spark está no centro da plataforma Databricks e é a tecnologia que alimenta o compute clustering e o SQL warehouse. O Databricks é uma plataforma otimizada para o Apache Spark, fornecendo uma plataforma simples e eficiente para a execução de cargas de trabalho do Apache Spark.
Spark transformações e ações
No Apache Spark, todas as operações são definidas como transformações ou ações.
- transformações : adicionar alguma lógica de processamento ao plano. Os exemplos incluem leitura de dados, junção, agregações e conversão de tipos.
- Ações : acionar a lógica de processamento para avaliar e gerar um resultado. Os exemplos incluem gravações, exibição ou visualização de resultados, armazenamento manual em cache ou obtenção da contagem de linhas.
O Apache Spark usa um modelo de execução preguiçoso , o que significa que nenhuma lógica definida por uma coleção de operações é avaliada até que uma ação seja acionada. Para evitar uma avaliação desnecessária da lógica, use somente ações para salvar os resultados em uma tabela de destino.
Como as ações representam um gargalo de processamento para otimizar a lógica, a Databricks adicionou várias otimizações além daquelas já presentes no Apache Spark para garantir a execução ideal da lógica. Essas otimizações consideram todas as transformações acionadas por uma determinada ação de uma só vez e encontram o plano ideal com base na disposição física dos dados. O armazenamento manual de dados em cache ou o retorno de resultados de visualização no pipeline de produção pode interromper essas otimizações e levar a aumentos de custo e latência.
Qual é a relação do Apache Spark com a Databricks?
A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem participantes de muitas empresas importantes, incluindo a Databricks.
Databricks continua a desenvolver e lançar recurso para Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo Photonuma versão otimizada do Apache Spark reescrita em C++.
Como o Apache Spark funciona no Databricks?
Quando o senhor implanta um clustering compute ou SQL warehouse em Databricks, Apache Spark é configurado e implantado em máquinas virtuais. O senhor não precisa configurar ou inicializar um contexto Spark ou uma sessão Spark, pois eles são gerenciados para o senhor pelo Databricks.
Posso usar o Databricks sem usar o Apache Spark?
Databricks suporta uma variedade de cargas de trabalho e inclui código aberto biblioteca no site Databricks Runtime. O Databricks SQL usa o Apache Spark como base, mas os usuários finais usam a sintaxe SQL padrão para criar e consultar objetos de banco de dados.
Databricks Runtime for Machine Learning é otimizado para ML cargas de trabalho, e muitos data scientists usam código aberto primário de biblioteca como TensorFlow e Scikit-Learn enquanto trabalham em Databricks. O senhor pode usar o Job para programar cargas de trabalho arbitrárias contra compute recurso implantado e gerenciar por Databricks.
Por que usar o Apache Spark na Databricks?
A plataforma Databricks oferece um ambiente seguro e colaborativo para o desenvolvimento e a implantação de soluções empresariais que acompanham o seu negócio. Os funcionários da Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.
Como posso saber mais sobre o uso do Apache Spark na Databricks?
Para começar a usar o Apache Spark na Databricks, mergulhe de cabeça! O tutorial do Apache Spark DataFrames orienta o carregamento e a transformação de dados em Python, R ou Scala. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames .
Informações adicionais sobre o suporte às linguagens Python, R e Scala em Spark podem ser encontradas nas seções PySpark em Databricks, SparkR overview e Databricks para desenvolvedores Scala, bem como em Reference for Apache Spark APIs .