Use a amostra TPC-DS dataset para avaliar o desempenho do sistema
Databricks fornece acesso ao benchmark TPC-DS dataset, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para data warehousing e analítica. O dataset está disponível em dois tamanhos pelo default em todos os catálogos Unity habilitados workspace. Esses conjuntos de dados são ideais para testar o desempenho do Databricks em um benchmark padronizado que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse dataset, consulte a documentação do benchmark TPC-DS.
O que está incluído
O conjunto de dados TPC-DS está disponível no catálogo samples
com os seguintes esquemas:
tpcds_sf1
- Escala pequena dataset (aproximadamente 1 GB)tpcds_sf1000
- Escala grande dataset (aproximadamente 1 TB)
Ambos os conjuntos de dados compartilham as seguintes qualidades:
- São somente de leitura e podem ser consultados por todos os usuários no workspace
- São compatíveis com SQL warehouse e clusters todo-propósito
- Siga a especificação TPC-DS para um benchmarking padronizado
Pré-requisitos
O senhor deve ter acesso a um SQL warehouse ou a um clusters todo-propósito.
Visualize os dados
Para explorar os dados na interface do usuário do Catalog Explorer:
- Clique em
Catálogo na barra lateral.
- Digite tpcds na barra de pesquisa. Ambos os esquemas estão no catálogo
samples
. Clique no nome do esquema que o senhor deseja view. - A Visão geral tab lista todas as tabelas do esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
- Use a navegação superior para view os Sample Data (Dados de amostra ) ou Details (Detalhes ) da tabela.
Consulte os dados
As consultas a seguir usam a escala menor dataset, tpcds_sf1
. Para usar a escala maior dataset, substitua o nome do esquema por tpcds_sf1000
. Clique em SQL Editor na barra lateral para abrir o editor SQL. Em seguida, use as seguintes consultas para começar a explorar os dados.
Tabelas de visualização
SHOW TABLES IN samples.tpcds_sf1;
Explore uma mesa
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Amostra join e agregação
SELECT
i_category,
d_year,
SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Melhores práticas
- Use o histórico de consultas e o perfil de consultas para entender as características de desempenho e identificar oportunidades de otimização.
- Comece com o menor
tpcds_sf1
dataset para testes iniciais e, em seguida, aumente atétpcds_sf1000
para uma avaliação abrangente do desempenho. - Compare o desempenho das consultas em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
- Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar as melhorias ao longo do tempo.