PySpark shell
Este artigo aborda Databricks Connect para Databricks Runtime 14.0 e acima.
O Databricks Connect para Python vem com um binário pyspark que é um PySpark REPL (um shell Spark) configurado para usar o Databricks Connect.
iniciar o shell
Para iniciar o shell Spark e conectá-lo ao seu clusterem execução, execute o seguinte comando a partir do seu ambiente virtual Python ativado.
Quando iniciado sem parâmetros adicionais, o shell obtém credenciais default do ambiente (por exemplo, a variável de ambiente DATABRICKS_ ou o perfil de configuração DEFAULT ) para se conectar ao cluster Databricks . Para obter informações sobre como configurar uma conexão, consulte Configuração de computação para Databricks Connect.
pyspark
O shell do Spark é exibido, por exemplo:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Após a inicialização do shell, o objeto spark estará disponível para execução Apache Spark comando no Databricks cluster. executar um simples PySpark comando, como spark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.
Use a shell
Consulte Análise interativa com o Spark shell para obter informações sobre como usar o shell Spark shell com para Python executar comando em compute seu.
Use a variável integrada spark para representar o SparkSession em seu clusters em execução, por exemplo:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no cluster no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
Pare o shell
Para interromper o Spark shell, pressione Ctrl + d ou Ctrl + z, ou execute o comando quit() ou exit().