Visão geral do Apache Spark

Apache Spark é a tecnologia que alimenta clusters compute e SQL warehouse no Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Comece já

Comece a trabalhar com Apache Spark no Databricks.

tópico	Descrição
Apache Spark no Databricks	Obtenha respostas para perguntas frequentes sobre o Apache Spark no Databricks.
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames	Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento de dados e transformações.
Noções básicas do PySpark	Aprenda os conceitos básicos de uso do PySpark analisando exemplos simples.

tópico	Descrição
Apache Spark no Databricks	Obtenha respostas para perguntas frequentes sobre o Apache Spark no Databricks.
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames	Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento de dados e transformações.
Noções básicas do PySpark	Aprenda os conceitos básicos de uso do PySpark analisando exemplos simples.

Explore outros recursos e documentação do Spark.

tópico	Descrição
Compare o Spark Connect com o Spark Classic.	Conheça as key diferenças entre Spark Connect e Spark Classic em termos de comportamento de execução e análise para evitar comportamentos inesperados e problemas de desempenho ao migrar o código.
Definir propriedades de configuração do Spark no Databricks	Defina as propriedades de configuração Spark para personalizar as configurações no seu ambiente compute e otimizar o desempenho.
Referência de opções Spark API	Consulte DataFrameReader, DataFrameWriter e opções de API relacionadas em um só lugar.
Transmissão estruturada	Leia uma visão geral da transmissão estruturada, um mecanismo de processamento quase real.
Diagnosticar problemas de custo e desempenho usando a Spark UI	Aprenda a usar a Spark UI para ajuste de desempenho, testes e otimização de custos do Spark Job.
Use o Apache Spark MLlib no Databricks	machine learning distribuído usando Spark MLlib e integração com estruturas ML populares.

tópico	Descrição
Compare o Spark Connect com o Spark Classic.	Conheça as key diferenças entre Spark Connect e Spark Classic em termos de comportamento de execução e análise para evitar comportamentos inesperados e problemas de desempenho ao migrar o código.
Definir propriedades de configuração do Spark no Databricks	Defina as propriedades de configuração Spark para personalizar as configurações no seu ambiente compute e otimizar o desempenho.
Referência de opções Spark API	Consulte DataFrameReader, DataFrameWriter e opções de API relacionadas em um só lugar.
Transmissão estruturada	Leia uma visão geral da transmissão estruturada, um mecanismo de processamento quase real.
Diagnosticar problemas de custo e desempenho usando a Spark UI	Aprenda a usar a Spark UI para ajuste de desempenho, testes e otimização de custos do Spark Job.
Use o Apache Spark MLlib no Databricks	machine learning distribuído usando Spark MLlib e integração com estruturas ML populares.

Trabalhe com o Spark usando sua linguagem de programação preferida.

tópico	Descrição
Referência para APIs Apache Spark	Visão geral de referência da API para Apache Spark, incluindo links para referência de operações Spark SQL, DataFrames e RDD em todas as linguagens suportadas.
PySpark	Use Python com Spark , incluindo noções básicas PySpark , fonte de dados personalizada e otimizações específicas Python .
API do Pandas no Spark	Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark	Trabalhe com R e Spark usando SparkR e Sparklyr para computação estatística e análise de dados.
Scala para Spark	Construa aplicações Spark de alto desempenho usando Scala com APIs Spark nativas e segurança de tipo.

tópico	Descrição
Referência para APIs Apache Spark	Visão geral de referência da API para Apache Spark, incluindo links para referência de operações Spark SQL, DataFrames e RDD em todas as linguagens suportadas.
PySpark	Use Python com Spark , incluindo noções básicas PySpark , fonte de dados personalizada e otimizações específicas Python .
API do Pandas no Spark	Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark	Trabalhe com R e Spark usando SparkR e Sparklyr para computação estatística e análise de dados.
Scala para Spark	Construa aplicações Spark de alto desempenho usando Scala com APIs Spark nativas e segurança de tipo.