メインコンテンツまでスキップ

サンプル データセット

Databricks によって提供され、Databricks ワークスペースで使用できるサード パーティによって提供されるさまざまなサンプル データセットがあります。

Unity Catalog データセット

Unity Catalog では、samples カタログ内の多数のサンプル データセットにアクセスできます。これらのデータセットは、カタログ エクスプローラー UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディターで参照できます。

nyctaxi スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含む tripsテーブルが含まれています。次の文は、このテーブルの最初の 10 個のレコードを返します。

SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpchスキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SQL
SHOW TABLES IN samples.tpch

CSV 形式のサードパーティのサンプル データセット

Databricks には、サードパーティのサンプルデータセットをカンマ区切り値(CSV)ファイルとしてワークスペースにすばやくアップロードするための組み込みツール Databricks あります。 CSV 形式で入手できる一般的なサードパーティのサンプル データセットの一部を次に示します。

サンプル データセット

サンプル データセットを CSV ファイルとしてダウンロードするには...

The Squirrel Census

データウェブページでパークデータをクリックしリスのデータ 、または ストーリー

OWID データセット コレクション

GitHubリポジトリで、 データセット フォルダをクリックします。ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。

Data.gov CSV datasets

検索結果の Web ページで、対象の検索結果をクリックし、 CSV アイコンの横にある [ダウンロード ] をクリックします。

ダイヤモンド(Kaggleアカウントが必要)

データセットの Web ページの [ データ ] タブの [ データ ] タブの [データ ] タブで、diamonds.csv の隣にあります。 [ダウンロード ] アイコンをクリックします。

NYCタクシー旅行期間 ( Kaggle アカウントが必要)

データセットの Web ページの [ データ ] タブで、[ sample_submission.zip ] の横にある ダウンロード アイコン。 データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。

Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。

  1. サードパーティの指示に従って、データセットを CSV ファイルとしてローカル コンピューターにダウンロードします。
  2. CSV ファイルを ローカル マシンから Databricks ワークスペースにアップロードします。
  3. インポートしたデータを操作するには、Databricks SQL を使用して データをクエリします。 または、 ノートブック を使用して 、データを DataFrame として読み込むこともできます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、 Python Package Index (PyPI) パッケージやComprehensive R Archive Network (CRAN) パッケージなど、ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。

Databricks データセット (databricks-データセット) を DBFS にマウント

Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースで、DBFS とマウントされたクラウドオブジェクトストレージを使用しないことをお勧めします。 DBFS にマウントされた一部のサンプル データセットは、Databricks で使用できます

注記

Databricks データセットの可用性と場所は、予告なしに変更される場合があります。

DBFS でマウントされた Databricks データセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。

Python
display(dbutils.fs.ls('/databricks-datasets'))