サンプル データセット
Databricks によって提供され、Databricks ワークスペースで使用できるサード パーティによって提供されるさまざまなサンプル データセットがあります。
Unity Catalogデータセット
Unity Catalog では、samples カタログ内の多数のサンプル データセットにアクセスできます。これらのデータセットは、カタログ エクスプローラー UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name> パターンを使用して SQL エディターで参照できます。
以下の表は、 samplesカタログで利用可能なスキーマの一覧です。
データセット | 説明 |
|---|---|
ニューヨーク市のタクシー乗車記録。 | |
TPC-Hベンチマークからの大規模データセット(約1TB)。 | |
TPC-DSベンチマークからの小規模データセット(約1GB)。 | |
ユーザー、宿泊施設、予約、レビューなどを備えた、シミュレーション型の旅行予約プラットフォーム。 |
ナイタクシー
nyctaxiスキーマには、ニューヨーク市でのタクシー乗車に関する詳細情報を含むテーブルtripsが含まれています。次の例は、このテーブルの最初の10件のレコードを返します。
- SQL
- Python
SELECT * FROM samples.nyctaxi.trips LIMIT 10
display(spark.read.table("samples.nyctaxi.trips").limit(10))
tpch
tpchスキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。
- SQL
- Python
SHOW TABLES IN samples.tpch
display(spark.sql("SHOW TABLES IN samples.tpch"))
tpcds_sf1
tpcds_sf1スキーマには、TPC-DSベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。
- SQL
- Python
SHOW TABLES IN samples.tpcds_sf1;
display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))
このデータセットを使用してシステム パフォーマンスを評価する方法の詳細については、「 TPC-DS サンプル データセットを使用してシステム パフォーマンスを評価する」を参照してください。
ワンダーブリックス
wanderbricksスキーマには、シミュレーションされた旅行予約プラットフォームのデータセットが含まれています。wanderbricksデータセット テーブルの詳細については、 「Wanderbricks データセット」を参照してください。
CSV 形式のサードパーティのサンプル データセット
Databricks には、サードパーティのサンプルデータセットをカンマ区切り値(CSV)ファイルとしてワークスペースにすばやくアップロードするための組み込みツール Databricks あります。 CSV 形式で入手できる一般的なサードパーティのサンプル データセットの一部を次に示します。
サンプル データセット | サンプル データセットを CSV ファイルとしてダウンロードするには... |
|---|---|
データ ウェブページで、 パークデータ をクリックし、 リスのデータ 、または ストーリー 。 | |
GitHubリポジトリで、 データセット フォルダをクリックします。ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。 | |
検索結果の Web ページで、対象の検索結果をクリックし、 CSV アイコンの横にある ダウンロード をクリックします。 | |
データセットの Web ページの [ データ ] タブの [ データ ] タブの [データ ] タブで、diamonds.csv の隣にあります。 [ダウンロード ] アイコンをクリックします。 | |
NYCタクシー旅行期間 ( Kaggle アカウントが必要) | データセットの Web ページの [ データ ] タブで、[ sample_submission.zip ] の横にある ダウンロード アイコン。データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。 |
Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。
- サードパーティの指示に従って、データセットを CSV ファイルとしてローカル コンピューターにダウンロードします。
- CSV ファイルを ローカル マシンから Databricks ワークスペースにアップロードします。
- インポートしたデータを操作するには、Databricks SQL を使用して データをクエリします。 または、 ノートブック を使用して 、データを データフレーム として読み込むこともできます。
ライブラリ内のサードパーティのサンプルデータセット
一部のサードパーティには、 Python Package Index (PyPI) パッケージやComprehensive R Archive Network (CRAN) パッケージなど、ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。
- クラスター ユーザー インターフェイスを使用して Databricks クラスター にライブラリをインストールするには、 コンピュート スコープ ライブラリを参照してください。
- Databricksノートブック を使用してPythonライブラリをインストールするには、ノートブックスコープのPythonライブラリ を参照してください。
- Databricks ノートブックを使用して R ライブラリをインストールするには、「ノートブック スコープの R ライブラリ」を参照してください。
Databricks データセット (databricks-datasets) を DBFS にマウント
Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースで、DBFS およびマウントされたクラウドオブジェクトストレージを使用しないことをお勧めします。 DBFS にマウントされた一部のサンプル データセットは、Databricks で使用できます。
Databricks データセットの可用性と場所は、予告なしに変更される場合があります。
DBFS でマウントされた Databricks データセットを参照する
Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。
- Python
- Scala
- R
display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"