Conjunto de dados de amostra

Há uma variedade de conjuntos de dados de amostra fornecidos pelo site Databricks e disponibilizados por terceiros que o senhor pode usar no seu Databricks workspace.

Conjunto de dadosUnity Catalog

Unity Catalog fornece acesso a vários conjuntos de dados de amostra no catálogo samples. O senhor pode revisar esses conjuntos de dados na UI do Catalog Explorer e fazer referência a eles diretamente em um Notebook ou no editorSQL usando o padrão <catalog-name>.<schema-name>.<table-name>.

A tabela a seguir lista os esquemas disponíveis no catálogo samples :

Conjunto de dados	Descrição
`nyctaxi`	Registros de viagens de táxi na cidade de Nova York.
`tpch`	dataset em escala grande (aproximadamente 1 TB) do TPC-H Benchmark.
`tpcds_sf1`	dataset Small-Escala (aproximadamente 1 GB) do benchmark TPC-DS.
`wanderbricks`	Uma plataforma simulada de reservas de viagens com usuários, propriedades, reservas, avaliações e muito mais.

Conjunto de dados	Descrição
`nyctaxi`	Registros de viagens de táxi na cidade de Nova York.
`tpch`	dataset em escala grande (aproximadamente 1 TB) do TPC-H Benchmark.
`tpcds_sf1`	dataset Small-Escala (aproximadamente 1 GB) do benchmark TPC-DS.
`wanderbricks`	Uma plataforma simulada de reservas de viagens com usuários, propriedades, reservas, avaliações e muito mais.

nyctaxi

O esquema nyctaxi contém a tabela trips, que tem detalhes sobre corridas de táxi na cidade de Nova York. O exemplo a seguir retorna os 10 primeiros registros desta tabela:

SQL
Python

SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10

Python
display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

O esquema tpch contém dados do TPC-H Benchmark. Para listar as tabelas desse esquema, execute:

SQL
Python

SQL
SHOW TABLES IN samples.tpch

Python
display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

O esquema tpcds_sf1 contém dados do benchmark TPC-DS. Para listar as tabelas desse esquema, execute:

SQL
Python

SQL
SHOW TABLES IN samples.tpcds_sf1;

Python
display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Para obter mais orientações sobre como usar este dataset para avaliar o desempenho do sistema, consulte Use the TPC-DS sample dataset to evaluate system desempenho.

wanderbricks

O esquema wanderbricks contém um dataset simulado de uma plataforma de reserva de viagens. Para obter detalhes sobre as tabelas dataset wanderbricks , consulte datasetWanderbricks.

Conjunto de dados de amostra de terceiros no formato CSV

Databricks tem ferramentas integradas para upload rapidamente um conjunto de dados de amostra de terceiros como arquivos de valores separados por vírgula (CSV) no espaço de trabalho Databricks. Alguns conjuntos de dados de amostra de terceiros populares estão disponíveis no formato CSV:

Amostra dataset	Para download a amostra dataset como um arquivo CSV...
O esquilo Census	Na página de dados , clique em Park Data , Dados ou histórias de esquilos .
Coleção do conjunto de dados OWID	No repositório GitHub, clique na pasta do conjunto de dados . Clique na subpasta que contém o destino dataset e, em seguida, clique no arquivo dataset's CSV.
Data.gov CSV dataset	Na página de resultados da pesquisa, clique no resultado da pesquisa de destino e, ao lado do ícone CSV clique em download .
Diamantes (Requer um Kaggle account)	Na página da Web dataset, em Data tab, em Data tab, ao lado de diamonds.csv , clique no ícone de download .
NYC Taxi Trip duração (Requer um Kaggle account)	Na página da Web do dataset, em Data tab, ao lado de sample_submission.zip , clique no botão Ícone de download . Para localizar dataset CSV os arquivos do, extraia o conteúdo do arquivo ZIP de downloads.

Amostra dataset	Para download a amostra dataset como um arquivo CSV...
O esquilo Census	Na página de dados , clique em Park Data , Dados ou histórias de esquilos .
Coleção do conjunto de dados OWID	No repositório GitHub, clique na pasta do conjunto de dados . Clique na subpasta que contém o destino dataset e, em seguida, clique no arquivo dataset's CSV.
Data.gov CSV dataset	Na página de resultados da pesquisa, clique no resultado da pesquisa de destino e, ao lado do ícone CSV clique em download .
Diamantes (Requer um Kaggle account)	Na página da Web dataset, em Data tab, em Data tab, ao lado de diamonds.csv , clique no ícone de download .
NYC Taxi Trip duração (Requer um Kaggle account)	Na página da Web do dataset, em Data tab, ao lado de sample_submission.zip , clique no botão Ícone de download . Para localizar dataset CSV os arquivos do, extraia o conteúdo do arquivo ZIP de downloads.

Para usar o conjunto de dados de amostra de terceiros em seu Databricks workspace, faça o seguinte:

Siga as instruções de terceiros para download o dataset como um arquivo CSV em seu computador local.
Faça o upload do arquivo CSV de seu computador local para o Databricks workspace.
Para trabalhar com o uso de dados importados Databricks SQL para consultar os dados. Ou o senhor pode usar um Notebook para carregar os dados como um DataFrame.

Conjunto de dados de amostra de terceiros na biblioteca

Alguns terceiros incluem conjuntos de dados de amostra na biblioteca, como o Python pacote Index (PyPI ) pacote ou Comprehensive R Archive Network (CRAN ) pacote. Para obter mais informações, consulte a documentação do provedor da biblioteca.

Para instalar uma biblioteca em um Databricks cluster usando a interface de usuário de clustering, consulte biblioteca com escopo de computação.
Para instalar uma Python biblioteca usando um Databricks notebook, consulte Notebook-scoped Pythonbiblioteca.
Para instalar uma biblioteca R usando um Databricks Notebook, consulte Notebook-scoped R biblioteca.

Databricks conjunto de dados (databricks-dataset) montado no DBFS

Databricks recomenda não usar o DBFS e o armazenamento de objetos na nuvem montado para a maioria dos casos de uso no espaço de trabalho Databricks habilitado para o Unity Catalog. Alguns exemplos de conjuntos de dados montados para DBFS estão disponíveis em Databricks

nota

A disponibilidade e a localização do conjunto de dados Databricks estão sujeitas a alterações sem aviso prévio.

Navegue pelo conjunto de dados DBFS montado Databricks

Para procurar esses arquivos em um Python Scala notebook, ou R, o senhor pode usar a referênciaDatabricks utilidadesdbutils(). O código a seguir lista todos os conjuntos de dados disponíveis no site Databricks.

Python
Scala
R

Python
display(dbutils.fs.ls('/databricks-datasets'))

Scala
display(dbutils.fs.ls("/databricks-datasets"))

R
%fs ls "/databricks-datasets"

Conjunto de dadosUnity Catalog​

nyctaxi​

tpch​

tpcds_sf1​

wanderbricks​

Conjunto de dados de amostra de terceiros no formato CSV​

Conjunto de dados de amostra de terceiros na biblioteca​

Databricks conjunto de dados (databricks-dataset) montado no DBFS​

Navegue pelo conjunto de dados DBFS montado Databricks​