Pular para o conteúdo principal

Análise exploratória de dados em Databricks: Ferramentas e técnicas

Este artigo descreve ferramentas e técnicas para análise exploratória de dados (EDA) em Databricks.

O que é a EDA e por que ela é útil?

A análise exploratória de dados (EDA) inclui métodos de exploração de conjuntos de dados para resumir suas principais características e identificar quaisquer problemas com os dados. Usando métodos estatísticos e visualizações, o senhor pode aprender sobre um conjunto de dados para determinar sua prontidão para análise e informar quais técnicas aplicar para a preparação de dados. EDA também pode influenciar os algoritmos que o senhor escolhe aplicar para os modelos de treinamento ML.

Quais são as ferramentas de EDA na Databricks?

Databricks Integrou ferramentas de análise e visualização em Databricks SQL e em Databricks Runtime. Para obter uma lista ilustrada dos tipos de visualizações disponíveis no Databricks, consulte Tipos de visualização.

EDA em Databricks SQL

Aqui estão alguns artigos úteis sobre visualização de dados e ferramentas de exploração no Databricks SQL:

EDA em Databricks Runtime

Databricks Runtime fornece um ambiente pré-construído que tem uma biblioteca popular de exploração de dados já instalada. O senhor pode ver a lista da biblioteca integrada nas notas sobre a versão.

Além disso, os artigos a seguir mostram exemplos de ferramentas de visualização no Databricks Runtime:

Em um Databricks Python Notebook, o senhor pode combinar SQL e Python para explorar os dados. Quando o senhor executa um código em uma célula de idioma SQL em um notebook Python, os resultados da tabela são automaticamente disponibilizados como um Python DataFrame. Para obter detalhes, consulte Explore SQL cell results in Python Notebook.