Use a amostra TPC-DS dataset para avaliar o desempenho do sistema

Databricks fornece acesso ao benchmark TPC-DS dataset, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para data warehousing e analítica. O dataset está disponível em dois tamanhos pelo default em todos os catálogos Unity habilitados workspace. Esses conjuntos de dados são ideais para testar o desempenho do Databricks em um benchmark padronizado que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse dataset, consulte a documentação do benchmark TPC-DS.

O que está incluído

O conjunto de dados TPC-DS está disponível no catálogo samples com os seguintes esquemas:

tpcds_sf1 - Escala pequena dataset (aproximadamente 1 GB)
tpcds_sf1000 - Escala grande dataset (aproximadamente 1 TB)

Ambos os conjuntos de dados compartilham as seguintes qualidades:

São somente de leitura e podem ser consultados por todos os usuários no workspace
São compatíveis com SQL warehouse e clusters todo-propósito
Siga a especificação TPC-DS para um benchmarking padronizado

Pré-requisitos

O senhor deve ter acesso a um SQL warehouse ou a um clusters todo-propósito.

Visualize os dados

Para explorar os dados na interface do usuário do Catalog Explorer:

Clique em Catálogo na barra lateral.
Digite tpcds na barra de pesquisa. Ambos os esquemas estão no catálogo samples. Clique no nome do esquema que o senhor deseja view.
A Visão geral tab lista todas as tabelas do esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
Use a navegação superior para view os Sample Data (Dados de amostra ) ou Details (Detalhes ) da tabela.

Consulte os dados

As consultas a seguir usam a escala menor dataset, tpcds_sf1. Para usar a escala maior dataset, substitua o nome do esquema por tpcds_sf1000. Clique em SQL Editor na barra lateral para abrir o editor SQL. Em seguida, use as seguintes consultas para começar a explorar os dados.

Tabelas de visualização

SQL
SHOW TABLES IN samples.tpcds_sf1;

Explore uma mesa

SQL
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Amostra join e agregação

SQL
SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Melhores práticas

Use o histórico de consultas e o perfil de consultas para entender as características de desempenho e identificar oportunidades de otimização.
Comece com o menor tpcds_sf1 dataset para testes iniciais e, em seguida, aumente até tpcds_sf1000 para uma avaliação abrangente do desempenho.
Compare o desempenho das consultas em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar as melhorias ao longo do tempo.

O que está incluído​

Pré-requisitos​

Visualize os dados​

Consulte os dados​

Tabelas de visualização​

Explore uma mesa​

Amostra join e agregação​

Melhores práticas​