PySpark shell
Este artigo aborda Databricks Connect para Databricks Runtime 14.0 e acima.
O Databricks Connect para Python vem com um binário pyspark que é um PySpark REPL (um shell Spark) configurado para usar o Databricks Connect.
Ao começar sem parâmetros adicionais, o shell pega as credenciais do default do ambiente (por exemplo, a DATABRICKS_ variável de ambiente ou o perfil de configuração DEFAULT ) para se conectar ao Databricks cluster. Para obter informações sobre como configurar uma conexão, consulte a configuração de computação para Databricks Connect.
- 
Para começar o Spark shell e conectá-lo ao seu clusters em execução, execute um dos seguintes comandos a partir do seu ambiente virtual Python ativado: BashpysparkO shell do Spark é exibido, por exemplo: OutputPython 3.10 ...
 [Clang ...] on darwin
 Type "help", "copyright", "credits" or "license" for more information.
 Welcome to
 ____ __
 / __/__ ___ _____/ /__
 _\ \/ _ \/ _ `/ __/ '_/
 /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
 /_/
 Using Python version 3.10 ...
 Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
 SparkSession available as 'spark'.
 >>>Após a inicialização do shell, o objeto sparkestará disponível para execução Apache Spark comando no Databricks cluster. executar um simples PySpark comando, comospark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.
- 
Consulte Análise interativa com o Spark shell para obter informações sobre como usar o shell Spark shell com para Python executar comando em compute seu. Use a variável integrada sparkpara representar oSparkSessionem seu clusters em execução, por exemplo:>>> df = spark.read.table("samples.nyctaxi.trips")
 >>> df.show(5)
 +--------------------+---------------------+-------------+-----------+----------+-----------+
 |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
 +--------------------+---------------------+-------------+-----------+----------+-----------+
 | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
 | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
 | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
 | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
 | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
 +--------------------+---------------------+-------------+-----------+----------+-----------+
 only showing top 5 rowsTodo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no cluster no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local. 
- 
Para interromper o Spark shell, pressione Ctrl + douCtrl + z, ou execute o comandoquit()ouexit().