サンプルデータセット

Databricks によって提供され、Databricks ワークスペースで使用できるサード パーティによって利用できるさまざまなサンプル データセットがあります。

Unity Catalog データセット

Unity Catalog では、 samples カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、カタログエクスプローラ UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディタで参照できます。

nyctaxiスキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル tripsが含まれています。次の文は、このテーブルの最初の 10 件のレコードを返します。

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch スキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。

SHOW TABLES IN samples.tpch

Databricks データセット (databricks-datasets)

Databricks には、 DBFS にマウントされたさまざまなサンプル データセットが含まれています。

注:

Databricks データセットの可用性と場所は、予告なしに変更される場合があります。

Databricks データセットの参照

Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。

display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"

Databricks データセットに関する情報を取得する

Databricks データセットに関する詳細情報を取得するには、次のコード例に示すように、ローカル ファイル API を使用して、Python、R、または Scala ノートブックを使用してデータセット README (使用可能な場合) を出力できます。

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}
library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks データセットに基づいてテーブルを作成するCreate a table based on a Databricks dataset

このコード例は、SQL エディターで SQL を使用する方法、または SQL、Python、Scala、または R ノートブックを使用して Databricks データセットに基づいてテーブルを作成する方法を示しています。

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV形式のサードパーティのサンプルデータセット

Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Databricks ワークスペースにすばやくアップロードするための組み込みツールがあります。 CSV 形式で利用できる一般的なサードパーティのサンプル データセットには、次のようなものがあります。

サンプル データセット

サンプルデータセットをCSVファイルとしてダウンロードするには...

The Squirrel Census

[データ] Web ページで、[Park Data]、[Squirrel Data]、または [ストーリー] をクリックします。

OWID データセット コレクション

GitHub リポジトリで、 データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。

Data.gov CSV datasets

検索結果の Web ページで、ターゲットの検索結果をクリックし、 CSV アイコンの横にある [ダウンロード] をクリックします。

ダイヤモンド(Kaggleアカウントが必要)

データセットの Web ページの [ データ] タブの [データ ] タブの diamonds.csv の横の 「 ダウンロード 」アイコンをクリックします。

NYC タクシー乗車時間 ( Kaggle アカウントが必要)

データセットの Web ページの [ データ ] タブで、[ sample_submission.zip] の横にある [ ダウンロード ] アイコンをクリックします。 データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。

UFOの目撃情報 ( data.world アカウントが必要)

データセットの Web ページで、 nuforc_reports.csv の横の 「 ダウンロード 」アイコンをクリックします。

Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。

  1. サードパーティの指示に従って、データセットをCSVファイルとしてローカルマシンにダウンロードします。

  2. CSV ファイルを ローカル コンピューターから Databricks ワークスペースにアップロードします。

  3. インポートされたデータを操作するには、Databricks SQL を使用して データのクエリを実行します。 または、 ノートブック を使用して 、データを DataFrame として読み込むこともできます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、 Python Package Index (PyPI ) パッケージや Comprehensive R Archive Network (CRAN) パッケージなど、 ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。

  • クラスター ユーザー インターフェイスを使用して Databricks クラスターにライブラリをインストールするには、「クラスター ライブラリ」を参照してください。

  • Databricks ノートブックを使用して Python ライブラリをインストールするには、「 ノートブック スコープの Python ライブラリ 」を参照してください。

  • Databricks ノートブックを使用して R ライブラリをインストールするには、「 ノートブック スコープの R ライブラリ」を参照してください。