Pular para o conteúdo principal

PySpark shell

nota

Este artigo aborda Databricks Connect para Databricks Runtime 14.0 e acima.

O Databricks Connect para Python vem com um binário pyspark que é um PySpark REPL (um shell Spark) configurado para usar o Databricks Connect.

Ao começar sem parâmetros adicionais, o shell pega as credenciais do default do ambiente (por exemplo, a DATABRICKS_ variável de ambiente ou o perfil de configuração DEFAULT ) para se conectar ao Databricks cluster. Para obter informações sobre como configurar uma conexão, consulte a configuração de computação para Databricks Connect.

  1. Para começar o Spark shell e conectá-lo ao seu clusters em execução, execute um dos seguintes comandos a partir do seu ambiente virtual Python ativado:

    Bash
    pyspark

    O shell do Spark é exibido, por exemplo:

    Output
    Python 3.10 ...
    [Clang ...] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
    ____ __
    / __/__ ___ _____/ /__
    _\ \/ _ \/ _ `/ __/ '_/
    /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
    /_/

    Using Python version 3.10 ...
    Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
    SparkSession available as 'spark'.
    >>>

    Após a inicialização do shell, o objeto spark estará disponível para execução Apache Spark comando no Databricks cluster. executar um simples PySpark comando, como spark.range(1,10).show(). Se não houver erros, você se conectou com sucesso.

  2. Consulte Análise interativa com o Spark shell para obter informações sobre como usar o shell Spark shell com para Python executar comando em compute seu.

    Use a variável integrada spark para representar o SparkSession em seu clusters em execução, por exemplo:

    >>> df = spark.read.table("samples.nyctaxi.trips")
    >>> df.show(5)
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
    | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
    | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
    | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
    | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    only showing top 5 rows

    Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no cluster no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.

  3. Para interromper o Spark shell, pressione Ctrl + d ou Ctrl + z, ou execute o comando quit() ou exit().