datasetde amostra

Há uma variedade de conjuntos de dataset de amostra fornecidos pelo Databricks e disponibilizados por terceiros que você pode usar em seu espaço de trabalho do Databricks.

Unity Catalog dataset

Unity Catalog fornece acesso a vários conjuntos de dataset de amostra no catálogo samples. É possível revisar esses dataset na IU do Catalog Explorer e referenciá-los diretamente em um Notebook ou no editor SQL usando o padrão <catalog-name>.<schema-name>.<table-name>.

O esquema nyctaxi (também conhecido como banco de dados) contém a tabela trips, que contém detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros desta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O esquema tpch contém dados do benchmark TPC-H. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

dataset Databricks (databricks-dataset)

Databricks inclui uma variedade de dataset de amostra montados em DBFS.

Observação

A disponibilidade e localização do dataset Databricks estão sujeitas a alterações sem aviso prévio.

Navegar datasetdo Databricks

Para navegar por esses arquivos de um Notebook Python, Scala ou R, você pode usar a referência do Databricks russálias (dbutils). O código a seguir lista todos os dataset Databricks disponíveis.

display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"

Obtenha informações sobre datasetDatabricks

Para obter mais informações sobre um dataset Databricks , você pode usar uma API de arquivo local para imprimir o dataset README (se houver) usando um Python, R ou Scala Notebook, conforme mostrado neste exemplo de código.

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}
library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Criar uma tabela baseada em um conjunto de dados Databricks

Este exemplo de código demonstra como usar SQL no editor SQL ou como usar SQL, Python, Scala ou R Notebook para criar uma tabela baseada em um dataset Databricks:

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

dataset de amostra de terceiros em formato CSV

O Databricks integrou ferramentas para upload rapidamente dataset de amostra de terceiros como arquivos de valores separados por vírgula (CSV) no workspace do Databricks. Alguns dataset de amostra populares de terceiros disponíveis em formato CSV:

datasetde amostra

Para downloads o dataset de amostra como um arquivo CSV…

O Censusdo Esquilo

Na página Dados , clique em Dados do parque, Dados do esquilo ou Histórias.

Coleção dataset OWID

No repositório GitHub, clique na pasta dataset . Clique na subpasta que contém o dataset de destino e, em seguida, clique no arquivo CSV do dataset .

datasetCSV Data.gov

Na página de resultados da pesquisa, clique no resultado da pesquisa alvo e, ao lado do ícone CSV , clique em downloads.

Diamantes (requer uma conta Kaggle )

Na dataset página do , na Dados tab, na Dados tab, ao lado de diamantes.csv, clique no ícone downloads .

Duração da viagem de táxi em Nova York (requer uma conta Kaggle )

Na dataset página do , na Dados tab, ao lado de sample_submission.zip, clique no ícone downloads . Para encontrar os arquivos CSV do dataset , extraia o conteúdo do arquivo ZIP downloads .

Avistamentos de OVNIs (requer uma data.world account)

Na página do dataset , ao lado de nuforc_reports.csv, clique no ícone downloads .

Para usar dataset de exemplo de terceiros em seu workspace do Databricks, faça o seguinte:

  1. Siga as instruções de terceiros para downloads o dataset como um arquivo CSV para sua máquina local.

  2. Carregue o arquivo CSV da sua máquina local para o seu workspace do Databricks.

  3. Para trabalhar com o uso de dados importados Databricks SQL para consultar os dados. Ou você pode usar um Notebook para carregar os dados como um DataFrame.

dataset de amostra de terceiros na biblioteca

Alguns terceiros incluem dataset de amostra na biblioteca, como pacote Python Index (PyPI) ou pacote Comprehensive R Archive Network (CRAN) . Para mais informações consulte a documentação do fornecedor da biblioteca.