Dados de consulta

Consultar dados é o passo fundamental para realizar quase todas as tarefas data-driven no Databricks. Independentemente da linguagem ou da ferramenta usada, as cargas de trabalho começam definindo uma consulta em uma tabela ou outra fonte de dados e, em seguida, executam ações para extrair insights dos dados. Este artigo descreve os principais conceitos e procedimentos para executar consultas em várias ofertas de produtos do Databricks e inclui exemplos de código que você pode adaptar ao seu caso de uso.

Você pode consultar dados interativamente usando:

cadernos
Editor de SQL
Editor de arquivos
Painéis

Você também pode executar consultas como parte de um pipeline ou Job declarativo LakeFlow Spark .

Para obter uma visão geral das consultas de transmissão em Databricks, consulte Consulta de dados de transmissão.

Quais dados o senhor pode consultar com o Databricks?

O Databricks permite a consulta de dados em vários formatos e sistemas empresariais. Os dados que você consulta usando o Databricks se enquadram em uma das duas categorias amplas: dados em um lakehouse do Databricks e dados externos.

Quais dados estão em um lakehouse da Databricks?

Por padrão, a Databricks Data Intelligence Platform armazena todos os seus dados em um lakehouse do Databricks.

Isso significa que, ao executar uma instrução CREATE TABLE básica para criar uma nova tabela, você cria uma tabela de lakehouse. Os dados do lakehouse têm as seguintes propriedades:

Armazenados no formato Delta Lake.
Armazenados no armazenamento de objetos na cloud.
Governado pelo Unity Catalog.

A maioria dos dados de lakehouse em Databricks está registrada em Unity Catalog como tabelas gerenciais. As tabelas gerenciais oferecem a sintaxe mais fácil e se comportam como outras tabelas na maioria dos sistemas de gerenciamento de bancos de dados relacionais. As tabelas gerenciar são recomendadas para a maioria dos casos de uso e são adequadas para todos os usuários que não querem se preocupar com os detalhes de implementação do armazenamento de dados.

Uma tabela não gerenciada , ou tabela externa , é uma tabela registrada com um LOCATION especificado. O termo externo pode ser enganoso, pois as tabelas Delta externas ainda são dados de lakehouse. As tabelas não gerenciadas podem ser preferidas pelos usuários que acessam diretamente as tabelas de outros clientes do leitor Delta. Para obter uma visão geral das diferenças na semântica da tabela, consulte Tabelas do Databricks.

Algumas cargas de trabalho herdadas podem interagir exclusivamente com os dados do site Delta Lake por meio de caminhos de arquivos e não de tabelas de registro. Esses dados ainda são dados de lakehouse, mas podem ser mais difíceis de descobrir porque não estão registrados no Unity Catalog.

nota

O administrador do workspace pode não ter atualizado sua governança de dados para usar o Unity Catalog. Você ainda pode ter muitos dos benefícios de um lakehouse do Databricks sem o Unity Catalog, mas nem todas as funcionalidades indicadas neste artigo ou na documentação do Databricks são aceitas.

Quais dados são considerados externos?

Todos os dados que não estão em um lakehouse da Databricks podem ser considerados dados externos. Alguns exemplos de dados externos incluem o seguinte:

Tabelas externas registradas na Lakehouse Federation.
Tabelas no Hive metastore com suporte do Parquet.
Tabelas externas no Unity Catalog com suporte de JSON.
Dados CSV armazenados no armazenamento de objetos na cloud.
Dados de transmissão lidos do Kafka.

Databricks suporta a configuração de conexões com muitas fontes de dados. Consulte Conectar à fonte de dados e ao serviço externo.

Embora você possa usar o Unity Catalog para controlar o acesso e definir tabelas em relação aos dados armazenados em vários formatos e sistemas externos, o Delta Lake é um requisito para que os dados sejam considerados no lakehouse.

Delta Lake fornece todas as garantias transacionais em Databricks, que são cruciais para manter a integridade de dados e a consistência. Se o senhor quiser saber mais sobre as garantias transacionais nos dados do Databricks e por que elas são importantes, consulte O que são garantias ACID no Databricks?

A maioria dos usuários da Databricks consulta uma combinação de dados de lakehouse e dados externos. A conexão com dados externos é sempre a primeira etapa para a ingestão de dados e o pipeline ETL que traz os dados para o lakehouse. Para obter informações sobre a ingestão de dados, consulte Conectores padrão em LakeFlow Connect.

Consulte tabelas por nome

Para todos os dados registrados como uma tabela, a Databricks recomenda fazer consultas usando o nome da tabela.

Se o senhor estiver usando o Unity Catalog, as tabelas usarão um namespace de três camadas com o seguinte formato: <catalog-name>.<schema-name>.<table-name>.

Sem o Unity Catalog, os identificadores de tabela utilizam o formato <schema-name>.<table-name>.

nota

O Databricks herda grande parte de sua sintaxe SQL do Apache Spark, que não distingue entre SCHEMA e DATABASE.

A consulta pelo nome da tabela é permitida em todos os contextos de execução e linguagens compatíveis do Databricks.

SQL
Python

SQL
SELECT * FROM catalog_name.schema_name.table_name

Python
spark.read.table("catalog_name.schema_name.table_name")

Resolução do identificador do Unity Catalog

A Databricks recomenda o uso de identificadores totalmente qualificados quando as consultas ou cargas de trabalho interagem com objetos de banco de dados armazenados em vários esquemas ou catálogos.

A tabela a seguir descreve os comportamentos de identificadores parcialmente qualificados e não qualificados:

Padrão de identificador	Comportamento
`catalog_name.schema_name.object_name`	Refere-se ao objeto do banco de dados especificado pelo identificador.
`schema_name.object_name`	Refere-se ao objeto de banco de dados associado aos `schema_name` e `object_name` especificados no catálogo atual.
`object_name`	Refere-se ao objeto de banco de dados associado ao `object_name` especificado no catálogo e no esquema atuais.

Qual é o catálogo e o esquema atuais?

Em ambientes compute interativos, use current_catalog() e current_schema() para confirmar o catálogo e o esquema atuais.

Todos os espaços de trabalho configurados com Unity Catalog têm um catálogo default definido no nível workspace. Veja como gerenciar o catálogo default.

A tabela a seguir descreve as configurações do produto Databricks que podem substituir o catálogo workspace default :

Produto	Configuração
Uso geral ou trabalho compute	Defina a configuração Spark `spark.databricks.sql.initial.catalog.namespace` ao configurar compute.
Pipeline declarativo LakeFlow Spark	O catálogo e o esquema especificados durante a configuração do pipeline substituem o padrão do workspace para toda a lógica do pipeline.

nota

O catálogo ou esquema padrão também pode ser definido pelas configurações do site JDBC ao se conectar a sistemas ou metastores externos. Entre em contato com o administrador responsável pela configuração do seu Databricks compute e dos sistemas integrados se encontrar um comportamento inesperado default.

Use a sintaxe USE CATALOG ou USE SCHEMA para especificar o catálogo ou esquema atual para sua sessão atual. O catálogo ou esquema atual é usado quando uma consulta ou instrução usa um identificador parcialmente qualificado ou não qualificado.

Comando	Resultado
`USE CATALOG catalog_name`	Define o catálogo atual usando o `catalog_name` fornecido. Define o esquema atual como `default`.
`USE SCHEMA schema_name`	Define o esquema atual usando o `schema_name` fornecido no catálogo atual.
`USE SCHEMA catalog_name.schema_name`	Defina o catálogo atual usando o `catalog_name` fornecido e o esquema atual usando o `schema_name` fornecido.

nota

As consultas e comandos que usam identificadores totalmente qualificados para interagir com objetos como tabelas, visualizações, funções ou modelos não alteram o catálogo ou o esquema atual e sempre se referem ao objeto especificado.

Consultar dados por caminho

O senhor pode consultar caminhos de arquivos estruturados, semiestruturados e não estruturados. A maioria dos arquivos no Databricks tem o backup do armazenamento de objetos na nuvem. Consulte Trabalhar com arquivos no Databricks.

A Databricks recomenda configurar todo o acesso ao armazenamento de objetos na nuvem usando o Unity Catalog e definindo volumes para locais de armazenamento de objetos que são consultados diretamente. Os volumes fornecem aliases legíveis por humanos para locais e arquivos no armazenamento de objetos na nuvem usando nomes de catálogo e esquema para o caminho do arquivo. Consulte Conectar-se ao armazenamento de objetos na nuvem usando o Unity Catalog.

Os exemplos a seguir demonstram como usar os caminhos de volume do Unity Catalog para leitura de dados JSON:

SQL
Python

SQL
SELECT * FROM json.`/Volumes/catalog_name/schema_name/volume_name/path/to/data`

Python
spark.read.format("json").load("/Volumes/catalog_name/schema_name/volume_name/path/to/data")

Para locais de nuvem que não estão configurados como volumes do Unity Catalog, o senhor pode consultar dados diretamente usando URIs. Você deve configurar o acesso ao armazenamento de objetos na nuvem para consultar dados com URIs. Consulte Configurar o acesso ao armazenamento de objetos na nuvem para Databricks usando padrões herdados.

Os exemplos a seguir demonstram como usar URIs para consultar dados de JSON em Azure data lake Storage, GCS e S3:

SQL
Python

SQL
SELECT * FROM json.`abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data`;

SELECT * FROM json.`gs://bucket_name/path/to/data`;

SELECT * FROM json.`s3://bucket_name/path/to/data`;

Python
spark.read.format("json").load("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

spark.read.format("json").load("gs://bucket_name/path/to/data")

spark.read.format("json").load("s3://bucket_name/path/to/data")

Consulta ao uso de dados SQL warehouse

O Databricks utiliza SQL warehouses para compute nas seguintes interfaces:

Editor de SQL
Consultas Databricks SQL
Painéis
Dashboards legados
Alertas SQL

Opcionalmente, você pode usar SQL warehouses com os seguintes produtos:

Notebooks do Databricks
Editor de arquivos do Databricks
Jobs do Lakeflow

Ao consultar dados com SQL warehouses, você pode usar somente a sintaxe SQL. Outras linguagens de programação e APIs não são aceitas.

Para workspaces habilitados para o Unity Catalog, os SQL warehouses sempre usam o Unity Catalog para gerenciar o acesso a fontes de dados.

A maioria das consultas executadas em SQL warehouses têm como destino tabelas. Consultas direcionadas a arquivos de dados devem aproveitar os volumes do Unity Catalog para gerenciar o acesso aos locais de armazenamento.

Usar URIs diretamente em consultas executadas em SQL warehouses pode levar a erros inesperados.

Query uso de dados all purpose compute ou Job compute

A maioria das consultas executadas em notebooks, fluxos de trabalho e editor de arquivos do Databricks é realizada em clusters de compute configurados com o Databricks Runtime. Você pode configurar esses clusters para serem executados interativamente ou implantá-los como compute de jobs que alimentam fluxos de trabalho. A Databricks recomenda que você sempre utilize compute de jobs para cargas de trabalho não interativas.

Cargas de trabalho interativas versus não interativas

Muitos usuários acham útil visualizar os resultados da consulta enquanto as transformações são processadas durante o desenvolvimento. Ao migrar uma carga de trabalho interativa de compute para múltiplas finalidades para compute de jobs, é possível economizar tempo e custos de processamento removendo consultas que exibem resultados.

Apache Spark usa execução preguiçosa de código, o que significa que os resultados são calculados somente quando necessário, e várias transformações ou consultas a uma fonte de dados podem ser otimizadas como uma única consulta se o senhor não forçar os resultados. Isso contrasta com o modo de execução ávido usado em Pandas, que exige que os cálculos sejam processados em ordem antes de passar os resultados para o próximo método.

Se o seu objetivo é salvar dados limpos, transformados e agregados como um novo dataset, remova as consultas que exibem resultados do seu código antes de programá-las para execução.

Para pequenas operações e pequenos datasets, a economia de tempo e custo pode ser marginal. Ainda assim, com operações de grande porte, pode-se desperdiçar muito tempo calculando e imprimindo resultados em um notebook que pode não ser inspecionado manualmente. Os mesmos resultados provavelmente poderiam ser consultados na saída salva quase sem custo após seu armazenamento.

Quais dados o senhor pode consultar com o Databricks?​

Quais dados estão em um lakehouse da Databricks?​

Quais dados são considerados externos?​

Consulte tabelas por nome​

Resolução do identificador do Unity Catalog​

Qual é o catálogo e o esquema atuais?​

Consultar dados por caminho​

Consulta ao uso de dados SQL warehouse​

Query uso de dados all purpose compute ou Job compute​

Cargas de trabalho interativas versus não interativas​

Quais dados o senhor pode consultar com o Databricks?

Quais dados estão em um lakehouse da Databricks?

Quais dados são considerados externos?

Consulte tabelas por nome

Resolução do identificador do Unity Catalog

Qual é o catálogo e o esquema atuais?

Consultar dados por caminho

Consulta ao uso de dados SQL warehouse

Query uso de dados all purpose compute ou Job compute

Cargas de trabalho interativas versus não interativas