サンプルデータセット

Databricks によって提供され、サードパーティによって提供されるさまざまなサンプル データセットがあり、Databricksワークスペースで使用できます。

Unity Catalog データセット

Unity Catalog では、 samples カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、カタログエクスプローラ UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディタで参照できます。

nyctaxiスキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル tripsが含まれています。次の文は、このテーブルの最初の 10 件のレコードを返します。

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch スキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SHOW TABLES IN samples.tpch

CSV形式のサードパーティのサンプルデータセット

Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Databricks ワークスペースにすばやくアップロードするための組み込みツールがあります。 CSV 形式で利用できる一般的なサードパーティのサンプル データセットには、次のようなものがあります。

サンプル データセット

サンプルデータセットをCSVファイルとしてダウンロードするには...

The Squirrel Census

[データ] Web ページで、[Park Data]、[Squirrel Data]、または [ストーリー] をクリックします。

OWID データセット コレクション

GitHub リポジトリで、 データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。

Data.gov CSV datasets

検索結果の Web ページで、ターゲットの検索結果をクリックし、 CSV アイコンの横にある [ダウンロード] をクリックします。

ダイヤモンド(Kaggleアカウントが必要)

データセットの Web ページの [ データ] タブの [データ ] タブの diamonds.csv の横の 「 ダウンロード 」アイコンをクリックします。

NYC タクシー乗車時間 ( Kaggle アカウントが必要)

データセットの Web ページの [ データ ] タブで、[ sample_submission.zip] の横にある [ ダウンロード ] アイコンをクリックします。 データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。

Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。

  1. サードパーティの指示に従って、データセットをCSVファイルとしてローカルマシンにダウンロードします。

  2. CSV ファイルを ローカル マシンから Databricks ワークスペースにアップロードします。

  3. インポートされたデータを操作するには、Databricks SQL を使用して データのクエリを実行します。 または、 ノートブック を使用して 、データを DataFrame として読み込むこともできます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、 Python Package Index (PyPI ) パッケージや Comprehensive R Archive Network (CRAN) パッケージなど、 ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。

  • クラスター ユーザー インターフェイスを使用して Databricks クラスターにライブラリをインストールするには、「クラスター ライブラリ」を参照してください。

  • Databricks ノートブックを使用して Python ライブラリをインストールするには、「 ノートブック スコープの Python ライブラリ 」を参照してください。

  • Databricks ノートブックを使用して R ライブラリをインストールするには、「 ノートブック スコープの R ライブラリ」を参照してください。

Databricksデータセット (databricks-データセット) がDBFSにマウントされました

Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースでは、DBFS とマウントされたクラウド オブジェクト ストレージを使用しないことを推奨しています。 DBFSにマウントされたサンプルデータセットの一部はDatabricksで入手可能です。

注:

Databricks データセットの可用性と場所は、予告なしに変更される場合があります。

DBFS にマウントされた Databricks データセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。

display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"