Visão geral do Apache Spark
Apache Spark é a tecnologia que alimenta clusters compute e SQL warehouse no Databricks.
Esta página fornece uma visão geral da documentação nesta seção.
Comece já
Comece a trabalhar com Apache Spark no Databricks.
tópico | Descrição |
---|---|
Obtenha respostas para perguntas frequentes sobre o Apache Spark no Databricks. | |
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames | Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento de dados e transformações. |
Aprenda os conceitos básicos de uso do PySpark analisando exemplos simples. |
Recurso adicional
Explore outros recursos e documentação do Spark.
tópico | Descrição |
---|---|
Defina as propriedades de configuração Spark para personalizar as configurações no seu ambiente compute e otimizar o desempenho. | |
Leia uma visão geral da transmissão estruturada, um mecanismo de processamento quase real. | |
Diagnosticar problemas de custo e desempenho usando a Spark UI | Aprenda a usar a Spark UI para ajuste de desempenho, testes e otimização de custos do Spark Job. |
machine learning distribuído usando Spark MLlib e integração com estruturas ML populares. |
APIs Spark
Trabalhe com o Spark usando sua linguagem de programação preferida.
tópico | Descrição |
---|---|
Visão geral de referência da API para Apache Spark, incluindo links para referência de operações Spark SQL, DataFrames e RDD em todas as linguagens suportadas. | |
Use Python com Spark , incluindo noções básicas PySpark , fonte de dados personalizada e otimizações específicas Python . | |
Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos. | |
Trabalhe com R e Spark usando SparkR e Sparklyr para computação estatística e análise de dados. | |
Construa aplicações Spark de alto desempenho usando Scala com APIs Spark nativas e segurança de tipo. |