Pular para o conteúdo principal

Visão geral do Apache Spark

Apache Spark é a tecnologia que alimenta clusters compute e SQL warehouse no Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Comece já

Comece a trabalhar com Apache Spark no Databricks.

tópico

Descrição

Apache Spark no Databricks

Obtenha respostas para perguntas frequentes sobre o Apache Spark no Databricks.

Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames

Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento de dados e transformações.

Noções básicas do PySpark

Aprenda os conceitos básicos de uso do PySpark analisando exemplos simples.

Recurso adicional

Explore outros recursos e documentação do Spark.

tópico

Descrição

Definir propriedades de configuração do Spark no Databricks

Defina as propriedades de configuração Spark para personalizar as configurações no seu ambiente compute e otimizar o desempenho.

Transmissão estruturada

Leia uma visão geral da transmissão estruturada, um mecanismo de processamento quase real.

Diagnosticar problemas de custo e desempenho usando a Spark UI

Aprenda a usar a Spark UI para ajuste de desempenho, testes e otimização de custos do Spark Job.

Use o Apache Spark MLlib no Databricks

machine learning distribuído usando Spark MLlib e integração com estruturas ML populares.

APIs Spark

Trabalhe com o Spark usando sua linguagem de programação preferida.

tópico

Descrição

Referência para APIs Apache Spark

Visão geral de referência da API para Apache Spark, incluindo links para referência de operações Spark SQL, DataFrames e RDD em todas as linguagens suportadas.

PySpark

Use Python com Spark , incluindo noções básicas PySpark , fonte de dados personalizada e otimizações específicas Python .

API do Pandas no Spark

Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.

R para Spark

Trabalhe com R e Spark usando SparkR e Sparklyr para computação estatística e análise de dados.

Scala para Spark

Construa aplicações Spark de alto desempenho usando Scala com APIs Spark nativas e segurança de tipo.