Leia Delta Sharing tabelas compartilhadas usando Apache Spark DataFrames
Este artigo fornece exemplos de sintaxe do uso de Apache Spark para consultar dados compartilhados usando Delta Sharing. Use a palavra-chave deltasharing
como uma opção de formato para operações DataFrame.
Outras opções para consultar dados compartilhados
O senhor também pode criar consultas que usam nomes de tabelas compartilhadas em catálogos do Delta Sharing registrados no metastore, como os dos exemplos a seguir:
- SQL
- Python
SELECT * FROM shared_table_name
spark.read.table("shared_table_name")
Para obter mais informações sobre como configurar Delta Sharing em Databricks e consultar nomes de tabelas de uso de dados compartilhados, consulte Ler dados compartilhados usando Databricks-to-Databricks Delta Sharing (para destinatários).
É possível usar a transmissão estruturada para processar registros em tabelas compartilhadas de forma incremental. Para usar a transmissão estruturada, o senhor deve ativar o compartilhamento de história para a tabela. Consulte ALTER SHARE. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.
Se a tabela compartilhada tiver o feed de dados de alteração ativado na tabela de origem Delta e o histórico ativado no compartilhamento, o senhor poderá usar o feed de dados de alteração ao ler um compartilhamento Delta com transmissão estruturada ou lotes de operações. Consulte Usar o feed de dados de alterações do Delta Lake na Databricks.
Ler com a palavra-chave de formato Delta Sharing
A palavra-chave deltasharing
é compatível com as operações de leitura do Apache Spark DataFrame, conforme mostrado no exemplo a seguir:
df = (spark.read
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Feed de dados de alteração de leitura para tabelas compartilhadas do Delta Sharing
Para tabelas que têm o histórico compartilhado e o feed de dados de alterações ativado, o senhor pode ler os registros do feed de dados de alterações usando Apache Spark DataFrames. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.
df = (spark.read
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.option("endingTimestamp", "2021-05-21 12:00:00")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Leia Delta Sharing tabelas compartilhadas usando transmissão estruturada
Para tabelas que têm histórico compartilhado, o senhor pode usar a tabela compartilhada como fonte para a transmissão estruturada. história compartilhamento requer Databricks Runtime 12.2 LTS ou superior.
streaming_df = (spark.readStream
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)