Referência para APIs do Apache Spark
Databricks foi desenvolvido com base no Apache Spark, um mecanismo unified analytics para big data e aprendizado de máquina. Para obter mais informações, consulte Apache Spark em Databricks.
Apache Spark tem DataFrame APIs para operar em grandes conjuntos de dados, que incluem mais de 100 operadores, em vários idiomas.
-
APIs do PySpark para desenvolvedores de Python. Veja o tutorial: Carregamento e transformação de dados usando Apache Spark DataFrames . As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API.
- DataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte DataFrames e MLlib baseada em DataFrames.
-
(Depreciado) APIs do SparkR para desenvolvedores de R. As principais classes incluem:
- SparkSession - O SparkSession é o ponto de entrada no SparkR. Consulte Ponto de partida: SparkSession.
- SparkDataFrame - Uma coleção distribuída de dados agrupados em colunas nomeadas. Consulte dataset e DataFrames, Criando DataFrames e Criando SparkDataFrames.
-
APIs Scala para desenvolvedores Scala. As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API. Consulte Ponto de partida: SparkSession.
- Conjunto de dados - Uma coleção fortemente tipada de objetos específicos do domínio que pode ser transformada em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem um view não tipado chamado DataFrame, que é umDataset
de Row. Consulte as DataFrame funções dataset DataFrames e, Creating dataset, Creating DataFrames e.
-
APIs Java para desenvolvedores Java. As principais classes incluem:
- SparkSession - O ponto de entrada para programar Spark com o conjunto de dados e DataFrame API. Consulte Ponto de partida: SparkSession.
- Conjunto de dados - Uma coleção fortemente tipada de objetos específicos do domínio que pode ser transformada em paralelo usando operações funcionais ou relacionais. Cada
Dataset
também tem um view não tipado chamado DataFrame, que é umDataset
de Row. Consulte as DataFrame funções dataset DataFrames e, Creating dataset, Creating DataFrames e.
Para saber como usar as APIs do Apache Spark na Databricks, consulte:
- PySpark em Databricks
- Truques de dados para desenvolvedores de R
- Databricks para desenvolvedores Scala
- Para Java, o senhor pode executar o código Java como um trabalhoJAR.