Visão geral do Apache Spark
Apache Spark é a tecnologia que alimenta clusters compute e SQL warehouse no Databricks.
Esta página fornece uma visão geral da documentação nesta seção.
Comece já
Comece a trabalhar com Apache Spark no Databricks.
tópico  | Descrição  | 
|---|---|
Obtenha respostas para perguntas frequentes sobre o Apache Spark no Databricks.  | |
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames  | Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento de dados e transformações.  | 
Aprenda os conceitos básicos de uso do PySpark analisando exemplos simples.  | 
Recurso adicional
Explore outros recursos e documentação do Spark.
tópico  | Descrição  | 
|---|---|
Defina as propriedades de configuração Spark para personalizar as configurações no seu ambiente compute e otimizar o desempenho.  | |
Leia uma visão geral da transmissão estruturada, um mecanismo de processamento quase real.  | |
Diagnosticar problemas de custo e desempenho usando a Spark UI  | Aprenda a usar a Spark UI para ajuste de desempenho, testes e otimização de custos do Spark Job.  | 
machine learning distribuído usando Spark MLlib e integração com estruturas ML populares.  | 
APIs Spark
Trabalhe com o Spark usando sua linguagem de programação preferida.
tópico  | Descrição  | 
|---|---|
Visão geral de referência da API para Apache Spark, incluindo links para referência de operações Spark SQL, DataFrames e RDD em todas as linguagens suportadas.  | |
Use Python com Spark , incluindo noções básicas PySpark , fonte de dados personalizada e otimizações específicas Python .  | |
Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.  | |
Trabalhe com R e Spark usando SparkR e Sparklyr para computação estatística e análise de dados.  | |
Construa aplicações Spark de alto desempenho usando Scala com APIs Spark nativas e segurança de tipo.  |