PySpark シェル

注記

この記事では、Databricks Runtime 14.0 以降の Databricks Connect について説明します。

Databricks Connect for Python には、Databricks Connect を使用するように構成された PySpark REPL (Spark シェル) である pyspark バイナリが付属しています。

シェルを起動する

Sparkシェルを起動して稼働中のクラスターに接続するには、アクティブ化されたPython仮想環境から次のコマンドを実行します。

注記

追加の問題なしで起動すると、シェルは環境から認証情報 (たとえば、 DATABRICKS_環境変数やDEFAULT構成プロファイル) を取得して、 Databricksクラスターに接続します。接続の構成については、 Databricks Connectのコンピュート構成」を参照してください。

Bash
pyspark

たとえば、Spark シェルが表示されます。

Output
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

シェルが起動すると、spark オブジェクトはApache Spark Databricksクラスターでコマンドを実行できるようになります。単純な PySpark コマンド( spark.range(1,10).show()など)を実行します。エラーがなければ、正常に接続されています。

シェルを使用する

コンピュートでコマンドを実行するためにPythonでSparkシェルを使用する方法については、 Sparkシェルを使用したインタラクティブ解析を参照してください。

組み込み spark 変数を使用して、稼働中のクラスターの SparkSession を表します。

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

すべてのPython コードはローカルで実行されますが、リモートPySpark データフレームワークスペースのクラスターで実行されるDatabricks 操作と実行応答を含むすべてのコードは、ローカルの呼び出し元に送り返されます。

シェルを停止する

Spark シェルを停止するには、 Ctrl + d または Ctrl + zを押すか、コマンド quit() または exit()を実行します。

シェルを起動する​

シェルを使用する​

シェルを停止する​

シェルを起動する

シェルを使用する

シェルを停止する