Pular para o conteúdo principal

Descubra dados

Databricks fornece um conjunto de ferramentas e produtos que simplificam a descoberta de dados ativos que são acessíveis por meio da Databricks Data Intelligence Platform. Este artigo fornece uma visão geral opinativa de como o senhor pode descobrir e visualizar dados que já foram configurados para acesso em seu site workspace.

Os tópicos desta seção se concentram em explorar objetos de dados e arquivos de dados. Se o senhor estiver procurando informações sobre como trabalhar com ativos como Notebook, SQL queries, biblioteca, and models, consulte Navigate the workspace.

Se o senhor estiver procurando orientação sobre como gerar estatísticas resumidas para o conjunto de dados ou outra tarefa associada à análise exploratória de dados (EDA), consulte Análise exploratória de dados em Databricks: Ferramentas e técnicas.

Como o senhor pode descobrir os dados ativos?

As ferramentas de descobrimento de dados no site Databricks se enquadram nas seguintes categorias gerais:

  • AI-percepções, resumo e pesquisa assistidos.
  • Pesquisa por palavra-chave.
  • Exploração do catálogo usando a interface do usuário.
  • Listagem programática e exploração de metadados.

As ferramentas de descobrimento de dados são otimizadas para dados regidos por Unity Catalog. Os dados ativos que não foram registrados como objetos Unity Catalog podem não ser detectáveis usando algumas dessas abordagens.

Localizar uso de dados na UI

O Catalog Explorer oferece ferramentas para explorar e controlar dados ativos. O senhor acessa o Catalog Explorer usando o Ícone de catálogo Catalog na barra lateral workspace. Consulte O que é o Catalog Explorer?.

O Notebook e o editor de consultas SQL também oferecem um navegador de catálogo para explorar os objetos do banco de dados. Clique no ícone Catálogo nessas interfaces para expandir ou recolher o navegador do catálogo sem sair do seu editor de código.

Depois de descobrir um dataset de interesse, o senhor pode usar as percepções tab para saber como os dados estão sendo usados em seu workspace. Veja a visualização de consultas e usuários frequentes de uma tabela.

Explore os dados de forma programática

O senhor pode usar o comando SHOW em todos os objetos do banco de dados para descobrir o ativo registrado em Unity Catalog. Use o comando LIST, o comando mágico %fs ou Databricks utilidades para listar arquivos.

Consulte Explore o armazenamento e encontre arquivos de dados e Explore objetos de banco de dados.

Revise os comentários dos dados

O senhor pode revisar os comentários para saber mais sobre o conteúdo do conjunto de dados disponível em seu site lakehouse. Os comentários podem ser definidos em objetos de dados, incluindo catálogos, esquemas, tabelas e colunas. O senhor pode view comentários no Catalog Explorer ou usando o comando DESCRIBE para um objeto.

O Catalog Explorer pode fornecer comentários gerados pelo site AIpara tabelas, o que facilita aos proprietários de dados ativos fornecer uma visão geral detalhada do conjunto de dados. Consulte Adicionar AIcomentários gerados pelo Unity Catalog site aos objetos.

Os usuários também podem opcionalmente fornecer comentários sobre tabelas e outros objetos de banco de dados usando markdown, que é renderizado no Catalog Explorer. Consulte Adicionar comentários aos dados e AI ativo.

Procure por tabelas em seu lakehouse

O senhor pode usar a barra de pesquisa no Databricks para encontrar tabelas registradas no Unity Catalog. O senhor pode fazer uma pesquisa por palavra-chave ou usar a pesquisa semântica para encontrar conjuntos de dados ou colunas relacionados à sua consulta de pesquisa. A pesquisa só retorna resultados para tabelas que você tem permissão para ver. Pesquise nomes de tabelas de avaliações, nomes de colunas, comentários de tabelas e comentários de colunas. Consulte Search for workspace objects.