Pular para o conteúdo principal

Use a amostra TPC-DS dataset para avaliar o desempenho do sistema

Databricks fornece acesso ao benchmark TPC-DS dataset, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para data warehousing e analítica. O dataset está disponível em dois tamanhos pelo default em todos os catálogos Unity habilitados workspace. Esses conjuntos de dados são ideais para testar o desempenho do Databricks em um benchmark padronizado que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse dataset, consulte a documentação do benchmark TPC-DS.

O que está incluído

O conjunto de dados TPC-DS está disponível no catálogo samples com os seguintes esquemas:

  • tpcds_sf1 - Escala pequena dataset (aproximadamente 1 GB)
  • tpcds_sf1000 - Escala grande dataset (aproximadamente 1 TB)

Ambos os conjuntos de dados compartilham as seguintes qualidades:

  • São somente de leitura e podem ser consultados por todos os usuários no workspace
  • São compatíveis com SQL warehouse e clusters todo-propósito
  • Siga a especificação TPC-DS para um benchmarking padronizado

Pré-requisitos

O senhor deve ter acesso a um SQL warehouse ou a um clusters todo-propósito.

Visualize os dados

Para explorar os dados na interface do usuário do Catalog Explorer:

  1. Clique em Ícone de dados. Catálogo na barra lateral.
  2. Digite tpcds na barra de pesquisa. Ambos os esquemas estão no catálogo samples. Clique no nome do esquema que o senhor deseja view.
  3. A Visão geral tab lista todas as tabelas do esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
  4. Use a navegação superior para view os Sample Data (Dados de amostra ) ou Details (Detalhes ) da tabela.

Consulte os dados

As consultas a seguir usam a escala menor dataset, tpcds_sf1. Para usar a escala maior dataset, substitua o nome do esquema por tpcds_sf1000. Clique em Ícone do SQL Editor SQL Editor na barra lateral para abrir o editor SQL. Em seguida, use as seguintes consultas para começar a explorar os dados.

Tabelas de visualização

SQL
SHOW TABLES IN samples.tpcds_sf1;

Explore uma mesa

SQL
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;

Amostra join e agregação

SQL
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;

Melhores práticas

  • Use o histórico de consultas e o perfil de consultas para entender as características de desempenho e identificar oportunidades de otimização.
  • Comece com o menor tpcds_sf1 dataset para testes iniciais e, em seguida, aumente até tpcds_sf1000 para uma avaliação abrangente do desempenho.
  • Compare o desempenho das consultas em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
  • Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar as melhorias ao longo do tempo.