Leia Delta Sharing tabelas compartilhadas usando Apache Spark DataFrames

Este artigo fornece exemplos de sintaxe do uso de Apache Spark para consultar dados compartilhados usando Delta Sharing. Use a palavra-chave deltasharing como uma opção de formato para operações DataFrame.

Outras opções para consultar dados compartilhados

O senhor também pode criar consultas que usam nomes de tabelas compartilhadas em catálogos do Delta Sharing registrados no metastore, como os dos exemplos a seguir:

SQL
Python

SQL
SELECT * FROM shared_table_name

Python
spark.read.table("shared_table_name")

Para obter mais informações sobre como configurar Delta Sharing em Databricks e consultar nomes de tabelas de uso de dados compartilhados, consulte Ler dados compartilhados usando Databricks-to-Databricks Delta Sharing (para destinatários).

É possível usar a transmissão estruturada para processar registros em tabelas compartilhadas de forma incremental. Para usar a transmissão estruturada, o senhor deve ativar o compartilhamento de história para a tabela. Consulte ALTER SHARE. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.

Se a tabela compartilhada tiver o feed de dados de alteração ativado na tabela de origem Delta e o histórico ativado no compartilhamento, o senhor poderá usar o feed de dados de alteração ao ler um compartilhamento Delta com transmissão estruturada ou lotes de operações. Consulte Usar o feed de dados de alterações do Delta Lake na Databricks.

A palavra-chave deltasharing é compatível com as operações de leitura do Apache Spark DataFrame, conforme mostrado no exemplo a seguir:

Python
df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Para tabelas que têm o histórico compartilhado e o feed de dados de alterações ativado, o senhor pode ler os registros do feed de dados de alterações usando Apache Spark DataFrames. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.

Python
df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Para tabelas que têm histórico compartilhado, o senhor pode usar a tabela compartilhada como fonte para a transmissão estruturada. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.

Python
streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Outras opções para consultar dados compartilhados​

Ler com a palavra-chave de formato Delta Sharing​

Feed de dados de alteração de leitura para tabelas compartilhadas do Delta Sharing​

Leia Delta Sharing tabelas compartilhadas usando transmissão estruturada​

Outras opções para consultar dados compartilhados

Ler com a palavra-chave de formato Delta Sharing

Feed de dados de alteração de leitura para tabelas compartilhadas do Delta Sharing

Leia Delta Sharing tabelas compartilhadas usando transmissão estruturada