サンプルデータセット
Databricks によって提供され、Databricks ワークスペースで使用できるサード パーティによって利用できるさまざまなサンプル データセットがあります。
Unity Catalog データセット
Unity Catalog では、 samples
カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、カタログエクスプローラ UI で確認し、ノートブックで直接参照するか、<catalog-name>.<schema-name>.<table-name>
パターンを使用して SQL エディタで参照できます。
nyctaxi
スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips
が含まれています。次の文は、このテーブルの最初の 10 件のレコードを返します。
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
スキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次のコマンドを実行します。
SHOW TABLES IN samples.tpch
Databricks データセット (databricks-datasets)
Databricks には、 DBFS にマウントされたさまざまなサンプル データセットが含まれています。
注:
Databricks データセットの可用性と場所は、予告なしに変更される場合があります。
Databricks データセットの参照
Python、Scala、または R ノートブックからこれらのファイルを参照するには、 Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードは、使用可能なすべての Databricks データセットを一覧表示します。
display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"
Databricks データセットに関する情報を取得する
Databricks データセットに関する詳細情報を取得するには、次のコード例に示すように、ローカル ファイル API を使用して、Python、R、または Scala ノートブックを使用してデータセット README
(使用可能な場合) を出力できます。
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Databricks データセットに基づいてテーブルを作成するCreate a table based on a Databricks dataset
このコード例は、SQL エディターで SQL を使用する方法、または SQL、Python、Scala、または R ノートブックを使用して Databricks データセットに基づいてテーブルを作成する方法を示しています。
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
CSV形式のサードパーティのサンプルデータセット
Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Databricks ワークスペースにすばやくアップロードするための組み込みツールがあります。 CSV 形式で利用できる一般的なサードパーティのサンプル データセットには、次のようなものがあります。
サンプル データセット |
サンプルデータセットをCSVファイルとしてダウンロードするには... |
|
---|---|---|
[データ] Web ページで、[Park Data]、[Squirrel Data]、または [ストーリー] をクリックします。 |
||
GitHub リポジトリで、 データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。 |
||
検索結果の Web ページで、ターゲットの検索結果をクリックし、 CSV アイコンの横にある [ダウンロード] をクリックします。 |
||
データセットの Web ページの [ データ] タブの [データ ] タブの diamonds.csv の横の 「 ダウンロード 」アイコンをクリックします。 |
||
NYC タクシー乗車時間 ( Kaggle アカウントが必要) |
データセットの Web ページの [ データ ] タブで、[ sample_submission.zip] の横にある [ ダウンロード ] アイコンをクリックします。 データセットの CSV ファイルを見つけるために、ダウンロードした ZIP ファイルの内容を抽出します。 |
|
UFOの目撃情報 ( data.world アカウントが必要) |
データセットの Web ページで、 nuforc_reports.csv の横の 「 ダウンロード 」アイコンをクリックします。 |
Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。
サードパーティの指示に従って、データセットをCSVファイルとしてローカルマシンにダウンロードします。
CSV ファイルを ローカル コンピューターから Databricks ワークスペースにアップロードします。
インポートされたデータを操作するには、Databricks SQL を使用して データのクエリを実行します。 または、 ノートブック を使用して 、データを DataFrame として読み込むこともできます。
ライブラリ内のサードパーティのサンプルデータセット
一部のサードパーティには、 Python Package Index (PyPI ) パッケージや Comprehensive R Archive Network (CRAN) パッケージなど、 ライブラリ 内にサンプル データセットが含まれています。詳細については、ライブラリ プロバイダーのドキュメントを参照してください。
クラスター ユーザー インターフェイスを使用して Databricks クラスターにライブラリをインストールするには、「クラスター ライブラリ」を参照してください。
Databricks ノートブックを使用して Python ライブラリをインストールするには、「 ノートブック スコープの Python ライブラリ 」を参照してください。
Databricks ノートブックを使用して R ライブラリをインストールするには、「 ノートブック スコープの R ライブラリ」を参照してください。