サンプルデータセット
Databricks によって提供され、サードパーティによって提供されるさまざまなサンプル データセットがあり、Databricksワークスペースで使用できます。
Unity Catalog データセット
Unity Catalog では、 samples
カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、カタログエクスプローラ UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name>
パターンを使用して SQL エディタで参照できます。
nyctaxi
スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips
が含まれています。次の文は、このテーブルの最初の 10 件のレコードを返します。
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
スキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。
SHOW TABLES IN samples.tpch
CSV形式のサードパーティのサンプルデータセット
Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Databricks ワークスペースにすばやくアップロードするための組み込みツールがあります。 CSV 形式で利用できる一般的なサードパーティのサンプル データセットには、次のようなものがあります。
サンプル データセット |
サンプルデータセットをCSVファイルとしてダウンロードするには... |
|
---|---|---|
[データ] Web ページで、[Park Data]、[Squirrel Data]、または [ストーリー] をクリックします。 |
||
GitHub リポジトリで、 データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。 |
||
検索結果の Web ページで、ターゲットの検索結果をクリックし、 CSV アイコンの横にある [ダウンロード] をクリックします。 |
||
データセットの Web ページの [ データ] タブの [データ ] タブの diamonds.csv の横の 「 ダウンロード 」アイコンをクリックします。 |
||
NYC タクシー乗車時間 ( Kaggle アカウントが必要) |
データセットの Web ページの [ データ ] タブで、[ sample_submission.zip] の横にある [ ダウンロード ] アイコンをクリックします。 データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。 |
Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。
サードパーティの指示に従って、データセットをCSVファイルとしてローカルマシンにダウンロードします。
CSV ファイルを ローカル マシンから Databricks ワークスペースにアップロードします。
インポートされたデータを操作するには、Databricks SQL を使用して データのクエリを実行します。 または、 ノートブック を使用して 、データを DataFrame として読み込むこともできます。
ライブラリ内のサードパーティのサンプルデータセット
一部のサードパーティには、 Python Package Index (PyPI ) パッケージや Comprehensive R Archive Network (CRAN) パッケージなど、 ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。
クラスター ユーザー インターフェイスを使用して Databricks クラスターにライブラリをインストールするには、「クラスター ライブラリ」を参照してください。
Databricks ノートブックを使用して Python ライブラリをインストールするには、「 ノートブック スコープの Python ライブラリ 」を参照してください。
Databricks ノートブックを使用して R ライブラリをインストールするには、「 ノートブック スコープの R ライブラリ」を参照してください。
Databricksデータセット (databricks-データセット) がDBFSにマウントされました
Databricks では、Unity Catalog 対応の Databricks ワークスペースのほとんどのユースケースでは、DBFS とマウントされたクラウド オブジェクト ストレージを使用しないことを推奨しています。 DBFSにマウントされたサンプルデータセットの一部はDatabricksで入手可能です。
注:
Databricks データセットの可用性と場所は、予告なしに変更される場合があります。
DBFS にマウントされた Databricks データセットを参照する
Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。
display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"