PySpark shell
Este artigo aborda Databricks Connect para Databricks Runtime 14.0 e acima.
O Databricks Connect para Python vem com um binário pyspark
que é um PySpark REPL (um shell Spark) configurado para usar o Databricks Connect.
Ao começar sem parâmetros adicionais, o shell pega as credenciais do default do ambiente (por exemplo, a DATABRICKS_
variável de ambiente ou o perfil de configuração DEFAULT
) para se conectar ao Databricks cluster. Para obter informações sobre como configurar uma conexão, consulte a configuração de computação para Databricks Connect.
-
Para começar o Spark shell e conectá-lo ao seu clusters em execução, execute um dos seguintes comandos a partir do seu ambiente virtual Python ativado:
Bashpyspark
O shell do Spark é exibido, por exemplo:
OutputPython 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>Após a inicialização do shell, o objeto
spark
estará disponível para execução Apache Spark comando no Databricks cluster. executar um simples PySpark comando, comospark.range(1,10).show()
. Se não houver erros, você se conectou com sucesso. -
Consulte Análise interativa com o Spark shell para obter informações sobre como usar o shell Spark shell com para Python executar comando em compute seu.
Use a variável integrada
spark
para representar oSparkSession
em seu clusters em execução, por exemplo:>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rowsTodo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no cluster no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
-
Para interromper o Spark shell, pressione
Ctrl + d
ouCtrl + z
, ou execute o comandoquit()
ouexit()
.