サンプルデータセット

Databricks によって提供され、Databricks ワークスペースで使用できるサードパーティによって提供されるさまざまなサンプルデータセットがあります。

Unity Catalogデータセット

Unity Catalog では、samples カタログ内の多数のサンプルデータセットにアクセスできます。これらのデータセットは、カタログエクスプローラー UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディターで参照できます。

以下の表は、 samplesカタログで利用可能なスキーマの一覧です。

データセット	説明
`nyctaxi`	ニューヨーク市のタクシー乗車記録。
`tpch`	TPC-Hベンチマークからの大規模データセット（約1TB）。
`tpcds_sf1`	TPC-DSベンチマークからの小規模データセット（約1GB）。
`wanderbricks`	ユーザー、宿泊施設、予約、レビューなどを備えた、シミュレーション型の旅行予約プラットフォーム。

ナイタクシー

nyctaxiスキーマには、ニューヨーク市でのタクシー乗車に関する詳細情報を含むテーブルtripsが含まれています。次の例は、このテーブルの最初の10件のレコードを返します。

SQL
Python

SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10

Python
display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

tpchスキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SQL
Python

SQL
SHOW TABLES IN samples.tpch

Python
display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

tpcds_sf1スキーマには、TPC-DSベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SQL
Python

SQL
SHOW TABLES IN samples.tpcds_sf1;

Python
display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

このデータセットを使用してシステムパフォーマンスを評価する方法の詳細については、「 TPC-DS サンプルデータセットを使用してシステムパフォーマンスを評価する」を参照してください。

ワンダーブリックス

wanderbricksスキーマには、シミュレーションされた旅行予約プラットフォームのデータセットが含まれています。wanderbricksデータセットテーブルの詳細については、「Wanderbricks データセット」を参照してください。

CSV 形式のサードパーティのサンプルデータセット

Databricks には、サードパーティのサンプルデータセットをカンマ区切り値(CSV)ファイルとしてワークスペースにすばやくアップロードするための組み込みツール Databricks あります。 CSV 形式で入手できる一般的なサードパーティのサンプルデータセットの一部を次に示します。

サンプルデータセット	サンプルデータセットを CSV ファイルとしてダウンロードするには...
The Squirrel Census	データウェブページで、パークデータをクリックし、リスのデータ、またはストーリー。
OWID データセットコレクション	GitHubリポジトリで、データセットフォルダをクリックします。ターゲットデータセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。
Data.gov CSV datasets	検索結果の Web ページで、対象の検索結果をクリックし、 CSV アイコンの横にあるダウンロードをクリックします。
ダイヤモンド(Kaggleアカウントが必要)	データセットの Web ページの [ データ ] タブの [ データ ] タブの [データ ] タブで、diamonds.csv の隣にあります。 [ダウンロード ] アイコンをクリックします。
NYCタクシー旅行期間 ( Kaggle アカウントが必要)	データセットの Web ページの [ データ ] タブで、[ sample_submission.zip ] の横にあるダウンロードアイコン。データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。

Databricks ワークスペースでサードパーティのサンプルデータセットを使用するには、次の操作を行います。

サードパーティの指示に従って、データセットを CSV ファイルとしてローカルコンピューターにダウンロードします。
CSV ファイルをローカルマシンから Databricks ワークスペースにアップロードします。
インポートしたデータを操作するには、Databricks SQL を使用してデータをクエリします。または、ノートブックを使用して、データをデータフレームとして読み込むこともできます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、 Python Package Index (PyPI) パッケージやComprehensive R Archive Network (CRAN) パッケージなど、ライブラリ内にサンプルデータセットが含まれています。詳細については、ライブラリプロバイダーのドキュメントを参照してください。

クラスターユーザーインターフェイスを使用して Databricks クラスターにライブラリをインストールするには、コンピュートスコープライブラリを参照してください。
Databricksノートブックを使用してPythonライブラリをインストールするには、ノートブックスコープのPythonライブラリを参照してください。
Databricks ノートブックを使用して R ライブラリをインストールするには、「ノートブックスコープの R ライブラリ」を参照してください。

Databricks データセット (databricks-datasets) を DBFS にマウント

Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースで、DBFS およびマウントされたクラウドオブジェクトストレージを使用しないことをお勧めします。 DBFS にマウントされた一部のサンプルデータセットは、Databricks で使用できます。

注記

Databricks データセットの可用性と場所は、予告なしに変更される場合があります。

DBFS でマウントされた Databricks データセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。次のコードは、使用可能なすべての Databricks データセットを一覧表示します。

Python
Scala
R

Python
display(dbutils.fs.ls('/databricks-datasets'))

Scala
display(dbutils.fs.ls("/databricks-datasets"))

R
%fs ls "/databricks-datasets"

Unity Catalogデータセット​

ナイタクシー​

tpch​

tpcds_sf1​

ワンダーブリックス​

CSV 形式のサードパーティのサンプル データセット​

ライブラリ内のサードパーティのサンプルデータセット​

Databricks データセット (databricks-datasets) を DBFS にマウント​

DBFS でマウントされた Databricks データセットを参照する​