Pular para o conteúdo principal

Conjunto de dados de amostra

Há uma variedade de conjuntos de dados de amostra fornecidos pelo site Databricks e disponibilizados por terceiros que o senhor pode usar no seu Databricks workspace.

Unity Catalog conjunto de dados

Unity Catalog fornece acesso a vários conjuntos de dados de amostra no catálogo samples. O senhor pode revisar esses conjuntos de dados na UI do Catalog Explorer e fazer referência a eles diretamente em um Notebook ou no editorSQL usando o padrão <catalog-name>.<schema-name>.<table-name>.

O esquema nyctaxi (também conhecido como banco de dados) contém a tabela trips, que contém detalhes sobre viagens de táxi na cidade de Nova York. A declaração a seguir retorna os primeiros 10 registros dessa tabela:

SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10

O esquema tpch contém dados do TPC-H Benchmark. Para listar as tabelas desse esquema, execute:

SQL
SHOW TABLES IN samples.tpch

Conjunto de dados de amostra de terceiros no formato CSV

Databricks tem ferramentas integradas para upload rapidamente um conjunto de dados de amostra de terceiros como arquivos de valores separados por vírgula (CSV) no espaço de trabalho Databricks. Alguns conjuntos de dados de amostra de terceiros populares estão disponíveis no formato CSV:

Amostra dataset

Para download a amostra dataset como um arquivo CSV...

O esquilo Census

Na página de dados , clique em Park Data , Dados ou histórias de esquilos .

Coleção do conjunto de dados OWID

No repositório GitHub, clique na pasta do conjunto de dados . Clique na subpasta que contém o alvo dataset e, em seguida, clique no arquivo dataset's CSV.

Data.gov CSV dataset

Na página de resultados da pesquisa, clique no resultado da pesquisa de destino e, ao lado do ícone CSV clique em download .

Diamantes (Requer um Kaggle account)

Na página da Web do dataset, em Data tab, em Data tab, ao lado de diamonds.csv , clique no ícone de download .

NYC Taxi Trip duração (Requer um Kaggle account)

Na página da Web do dataset, em Data tab, ao lado de sample_submission.zip , clique no botão Ícone de download . Para localizar os dataset CSV arquivos do, extraia o conteúdo do arquivo ZIP de downloads.

Para usar o conjunto de dados de amostra de terceiros em seu Databricks workspace, faça o seguinte:

  1. Siga as instruções de terceiros para download o dataset como um arquivo CSV em seu computador local.
  2. Faça o upload do arquivo CSV de seu computador local para o Databricks workspace.
  3. Para trabalhar com o uso de dados importados Databricks SQL para consultar os dados. Ou o senhor pode usar um Notebook para carregar os dados como um DataFrame.

Conjunto de dados de amostra de terceiros na biblioteca

Alguns terceiros incluem conjuntos de dados de amostra na biblioteca, como Python pacote Index (PyPI ) pacote ou Comprehensive R Archive Network (CRAN ) pacote. Para obter mais informações, consulte a documentação do provedor da biblioteca.

  • Para instalar uma biblioteca em um Databricks cluster usando a interface de usuário de clustering, consulte Biblioteca de clustering.
  • Para instalar uma Python biblioteca usando um Databricks notebook, consulte Notebook-scoped Pythonbiblioteca.
  • Para instalar uma biblioteca R usando um Databricks Notebook, consulte Notebook-scoped R biblioteca.

Databricks conjunto de dados (databricks-dataset) montado no DBFS

Databricks recomenda não usar o DBFS e o armazenamento de objetos na nuvem montado para a maioria dos casos de uso no espaço de trabalho Databricks habilitado para o Unity Catalog. Alguns exemplos de conjuntos de dados montados para DBFS estão disponíveis em Databricks

nota

A disponibilidade e a localização do conjunto de dados Databricks estão sujeitas a alterações sem aviso prévio.

Para procurar esses arquivos em um Python Scala notebook, ou R, o senhor pode usar a referênciaDatabricks utilidadesdbutils(). O código a seguir lista todos os conjuntos de dados disponíveis no site Databricks.

Python
display(dbutils.fs.ls('/databricks-datasets'))