メインコンテンツまでスキップ

Koalas

important

このドキュメントは廃止されており、更新されない可能性があります。 このコンテンツに記載されている製品、サービス、またはテクノロジはサポートされなくなりました。 Spark の Pandas API を参照してください。

注記

Koalas は非推奨です。 Databricks Runtime10.0 Koalas(EoS) 以降 実行するクラスターで を使用しようとすると、情報メッセージが表示され、代わりにPandasAPI EoS onSpark 10.0 (EoS) を使用することをお勧めします。

Koalas は、Pandasのドロップイン代替品を提供します。data scientistsで一般的に使用されているPandasは、Pythonプログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。ただし、 Pandas は Big にスケールアウトしません。 KoalasPandasは、APIs で動作する同等の を提供することでApache Spark このギャップを埋めます。Koalasは、Pandas PySparkKoalasでは難しい多くのタスク、例えばPySpark から直接データをプロットするなど、PySparkDataFrame ユーザーだけでなく、ユーザーにとっても有用です。

必要条件

  • Koalas は、 Databricks Runtime 7.3 から 9.1 を実行するクラスターに含まれています。 Databricks Runtime 10.0 以降を実行しているクラスターの場合は、代わりに Pandas API on Spark を使用します。
  • 7.0 以前を実行しているクラスターで を使用するには、KoalasDatabricks RuntimeKoalas をDatabricksPyPI ライブラリ としてインストールします。
  • KoalasIDE、ノートブック サーバー、またはDatabricks クラスターに接続するその他のカスタム アプリケーションで を使用するには、 をインストールし、Databricks Connect Koalasのインストール手順に従います

ノートブック

次のノートブックは、 Pandas から Koalasに移行する方法を示しています。

Pandas to Koalas ノートブック

Open notebook in new tab

リソース