Definir as propriedades de configuração do Spark no Databricks

O senhor pode definir as propriedades de configuração do Spark (Spark confs) para personalizar as configurações em seu ambiente compute.

A Databricks geralmente não recomenda a configuração da maioria das propriedades do Spark. Especialmente ao migrar do código aberto Apache Spark ou atualizar as versões do Databricks Runtime, as configurações legadas do Spark podem substituir os novos comportamentos do default que otimizam as cargas de trabalho.

Para muitos comportamentos controlados pelas propriedades do Spark, o Databricks também oferece opções para ativar o comportamento em nível de tabela ou para configurar o comportamento personalizado como parte de uma operação de gravação. Por exemplo, a evolução do esquema era controlada anteriormente por uma propriedade do Spark, mas agora tem cobertura em SQL, Python e Scala. Consulte Sintaxe de evolução do esquema para mesclagem.

Configurar as propriedades do Spark para o Notebook e o Job

O senhor pode definir as propriedades do Spark para o Notebook e o Job. O escopo da configuração depende de como o senhor a definiu.

Propriedades configuradas:

Aplica-se a:

Usando a configuração do site compute

Execução de todos os notebooks e trabalhos com o recurso compute.

Em um notebook

Somente o site SparkSession do Notebook atual.

Para obter instruções sobre como configurar as propriedades do Spark no nível da computação, consulte Configuração do Spark.

Para definir uma propriedade Spark em um Notebook, use a seguinte sintaxe:

SET spark.sql.ansi.enabled = true
spark.conf.set("spark.sql.ansi.enabled", "true")
spark.conf.set("spark.sql.ansi.enabled", "true")

Configurar as propriedades do Spark no Databricks SQL

Databricks SQL permite que os administradores configurem as propriedades do Spark para acesso aos dados no menu de configurações do workspace. Consulte Ativar configuração de acesso a dados

Além das configurações de acesso a dados, o site Databricks SQL permite apenas algumas configurações de Spark, que foram apelidadas com nomes mais curtos para simplificar. Consulte Parâmetros de configuração.

Para a maioria das configurações de SQL suportadas, o senhor pode substituir o comportamento global na sessão atual. O exemplo a seguir desativa o modo ANSI:

SET ANSI_MODE = false

Configurar as propriedades do Spark para o pipeline Delta Live Tables

Delta Live Tables permite que o senhor configure as propriedades do Spark para um pipeline, para um compute recurso configurado para um pipeline, ou para fluxos individuais, visualização materializada ou tabelas de transmissão.

O senhor pode definir as propriedades pipeline e compute Spark usando a interface do usuário ou JSON. Consulte Configurar um pipeline do Delta Live Tables.

Use a opção spark_conf nas funções do decorador DLT para configurar as propriedades Spark para fluxos, visualizações ou tabelas. Consulte as propriedades do Python Delta Live Tables.

Configurar as propriedades do Spark para o serverless Notebook e Job

O Severless compute não suporta a configuração da maioria das propriedades do Spark para Notebook ou Job. A seguir estão as propriedades que o senhor pode configurar:

  • spark.sql.legacy.timeParserPolicy o valor padrão é EXCEPTION)

  • spark.sql.session.timeZone o valor padrão é Etc/UTC)

  • spark.sql.shuffle.partitions o valor padrão é auto)

  • spark.sql.ansi.enabled o valor padrão é true)