Referência para APIs do Apache Spark

Databricks é construído sobre o Apache Spark, um mecanismo unified analytics para big data e machine learning. Para obter mais informações, consulte Visão geralApache Spark.

Apache Spark tem DataFrame APIs para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.

APIs do PySpark para desenvolvedores de Python. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames . As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API.
- DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseada em DataFrames.
(Depreciado) APIs do SparkR para desenvolvedores de R. As principais classes incluem:
- SparkSession - O SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
- SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte dataset e DataFrames, Criando DataFrames e Criando SparkDataFrames.
APIs Scala para desenvolvedores Scala. As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API. Consulte Ponto de partida: SparkSession.
- Conjunto de dados - Uma coleção fortemente tipada de objetos específicos do domínio que pode ser transformada em paralelo usando operações funcionais ou relacionais. Cada Dataset também tem um view não tipado chamado DataFrame, que é um Dataset de Row. Consulte as DataFrame funções dataset DataFrames e, Creating dataset, Creating DataFrames e.
APIs Java para desenvolvedores Java. As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API. Consulte Ponto de partida: SparkSession.
- Conjunto de dados - Uma coleção fortemente tipada de objetos específicos do domínio que pode ser transformada em paralelo usando operações funcionais ou relacionais. Cada Dataset também tem um view não tipado chamado DataFrame, que é um Dataset de Row. Consulte as DataFrame funções dataset DataFrames e, Creating dataset, Creating DataFrames e.

Para saber como usar as APIs do Apache Spark na Databricks, consulte:

PySpark em Databricks
Truques de dados para desenvolvedores de R
Databricks para desenvolvedores Scala
Para Java, o senhor pode executar o código Java como um trabalhoJAR.