Descubra dados
Databricks fornece um conjunto de ferramentas e produtos que simplificam a descoberta de dados ativos que são acessíveis através da Databricks Data Intelligence Platform. Este artigo fornece uma visão geral opinativa de como você pode descobrir e visualizar dados que já foram configurados para acesso em seu workspace.
Para conectar-se à fonte de dados, consulte Conectar-se à fonte de dados.
Para obter informações sobre como obter acesso a dados no Databricks Marketplace, consulte O que é o Databricks Marketplace?.
Os tópicos desta seção concentram-se na exploração de objetos e arquivos de dados. Se você está procurando informações sobre como trabalhar com ativos como Notebook, query SQL, biblioteca e modelos, consulte Navegar no espaço de trabalho.
Se você estiver procurando orientação sobre a geração de estatísticas resumidas para dataset ou outra tarefa associada à análise exploratória de dados (EDA), consulte Análise exploratória de dados em Databricks: Ferramentas e técnicas.
Como você pode descobrir dados ativos?
As ferramentas de descoberta de dados no Databricks se enquadram nas seguintes categorias gerais:
Entendimento, resumo e pesquisa assistidos por IA.
Pesquisa por palavra-chave.
Exploração de catálogo usando a UI.
Listagem programática e exploração de metadados.
As ferramentas de descoberta de dados são otimizadas para dados governados pelo Unity Catalog. Os dados ativos que não foram registrados como objetos Unity Catalog podem não ser detectáveis usando algumas dessas abordagens.
Encontre o uso de dados na IU
O Catalog Explorer fornece ferramentas para explorar e controlar dados ativos. Você acessa o Catalog Explorer usando o Catálogo na barra lateral workspace . Consulte O que é o Catalog Explorer?.
Notebook e o editor query SQL também fornecem um navegador de catálogo para explorar objetos de banco de dados. Clique no ícone Catálogo nessas interfaces para expandir ou recolher o navegador do catálogo sem sair do editor de código.
Depois de descobrir um dataset de interesse, você pode usar a entendimento tab para saber como os dados estão sendo usados em seu espaço de trabalho. Veja view query frequentes e usuários de uma tabela.
Explore dados programaticamente
Você pode usar o comando SHOW
em todos os objetos do banco de dados para descobrir o ativo registrado no Unity Catalog. Use o comando LIST
, o comando mágico %fs
ou o Databricks russas para listar os arquivos.
Consulte Explorar armazenamento e localizar arquivos de dados e Explorar objetos de banco de dados.
Revise os comentários dos dados
Você pode revisar os comentários para saber mais sobre o conteúdo do dataset disponível em sua lakehouse. Os comentários podem ser definidos em objetos de dados, incluindo catálogos, esquemas, tabelas e colunas. Você pode view comentários no Catalog Explorer ou usar o comando DESCRIBE
para um objeto.
O Catalog Explorer pode fornecer comentários gerados por IA para tabelas, o que facilita para os proprietários de dados ativos fornecer uma visão geral detalhada do conjunto de dados. Consulte Adicionar comentários gerados por IA aos objetos do Unity Catalog.
Os usuários também podem, opcionalmente, fornecer comentários sobre tabelas e outros objetos do banco de dados usando markdown, que é renderizado no Catalog Explorer. Consulte Adicionar comentários aos dados e IA ativo.
Procure mesas em sua casa do lago
Você pode usar a barra de pesquisa no Databricks para encontrar tabelas registradas no Unity Catalog. Você pode realizar uma pesquisa por palavra-chave ou usar a pesquisa semântica para localizar dataset ou colunas relacionadas à sua query de pesquisa. A pesquisa retorna apenas resultados de tabelas que você tem permissão para ver. Pesquisar revisa nomes de tabelas, nomes de colunas, comentários de tabelas e comentários de colunas. Consulte Procurar objetos workspace .