Use a amostra TPC-DS dataset para avaliar o desempenho do sistema
Databricks fornece acesso ao benchmark TPC-DS dataset, um benchmark amplamente utilizado para testar o desempenho de sistemas criados para data warehousing e analítica. O dataset está disponível em dois tamanhos pelo default em todos os catálogos Unity habilitados workspace. Esses conjuntos de dados são ideais para testar o desempenho do Databricks em um benchmark padronizado que simula cenários realistas de negócios de varejo e comércio eletrônico. Para saber mais sobre esse dataset, consulte a documentação do benchmark TPC-DS.
O que está incluído
O conjunto de dados TPC-DS está disponível no catálogo samples com os seguintes esquemas:
tpcds_sf1- Escala pequena dataset (aproximadamente 1 GB)tpcds_sf1000- Escala grande dataset (aproximadamente 1 TB)
Ambos os conjuntos de dados compartilham as seguintes qualidades:
- São somente de leitura e podem ser consultados por todos os usuários no workspace
 - São compatíveis com SQL warehouse e clusters todo-propósito
 - Siga a especificação TPC-DS para um benchmarking padronizado
 
Pré-requisitos
O senhor deve ter acesso a um SQL warehouse ou a um clusters todo-propósito.
Visualize os dados
Para explorar os dados na interface do usuário do Catalog Explorer:
- Clique em 
Catálogo na barra lateral.
 - Digite tpcds na barra de pesquisa. Ambos os esquemas estão no catálogo 
samples. Clique no nome do esquema que o senhor deseja view. - A Visão geral tab lista todas as tabelas do esquema. Clique no nome de uma tabela para abrir uma visão geral das colunas e dos tipos de dados nessa tabela.
 - Use a navegação superior para view os Sample Data (Dados de amostra ) ou Details (Detalhes ) da tabela.
 
Consulte os dados
As consultas a seguir usam a escala menor dataset, tpcds_sf1. Para usar a escala maior dataset, substitua o nome do esquema por tpcds_sf1000. Clique em  SQL Editor na barra lateral para abrir o editor SQL. Em seguida, use as seguintes consultas para começar a explorar os dados.
Tabelas de visualização
SHOW TABLES IN samples.tpcds_sf1;
Explore uma mesa
DESCRIBE TABLE samples.tpcds_sf1.customer;
SELECT * FROM samples.tpcds_sf1.customer LIMIT 10;
Amostra join e agregação
SELECT
  i_category,
  d_year,
  SUM(ss_net_paid) AS total_revenue
FROM samples.tpcds_sf1.store_sales ss
JOIN samples.tpcds_sf1.item i ON ss.ss_item_sk = i.i_item_sk
JOIN samples.tpcds_sf1.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE d.d_year = 2001
GROUP BY i_category, d_year
ORDER BY total_revenue DESC
LIMIT 10;
Melhores práticas
- Use o histórico de consultas e o perfil de consultas para entender as características de desempenho e identificar oportunidades de otimização.
 - Comece com o menor 
tpcds_sf1dataset para testes iniciais e, em seguida, aumente atétpcds_sf1000para uma avaliação abrangente do desempenho. - Compare o desempenho das consultas em diferentes tamanhos de SQL warehouse para determinar as configurações ideais para suas cargas de trabalho.
 - Use esses conjuntos de dados padronizados para estabelecer linhas de base de desempenho e acompanhar as melhorias ao longo do tempo.