PySpark shell

nota

Este artigo aborda Databricks Connect para Databricks Runtime 14.0 e acima.

O Databricks Connect para Python vem com um binário pyspark que é um PySpark REPL (um shell Spark) configurado para usar o Databricks Connect.

iniciar o shell

Para iniciar o shell Spark e conectá-lo ao seu clusterem execução, execute o seguinte comando a partir do seu ambiente virtual Python ativado.

nota

Quando iniciado sem parâmetros adicionais, o shell obtém credenciais default do ambiente (por exemplo, a variável de ambiente DATABRICKS_ ou o perfil de configuração DEFAULT ) para se conectar ao cluster Databricks . Para obter informações sobre como configurar uma conexão, consulte Configuração de computação para Databricks Connect.

Bash
pyspark

O shell do Spark é exibido, por exemplo:

Output
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Após a inicialização do shell, o objeto spark estará disponível para execução Apache Spark comando no Databricks cluster. executar um simples PySpark comando, como spark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.

Use a shell

Consulte Análise interativa com o Spark shell para obter informações sobre como usar o shell Spark shell com para Python executar comando em compute seu.

Use a variável integrada spark para representar o SparkSession em seu clusters em execução, por exemplo:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no cluster no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

Pare o shell

Para interromper o Spark shell, pressione Ctrl + d ou Ctrl + z, ou execute o comando quit() ou exit().

iniciar o shell​

Use a shell​

Pare o shell​

iniciar o shell

Use a shell

Pare o shell