Restrições em Databricks

August 01, 2024

Databricks oferece suporte a cláusulas de gerenciamento de restrição SQL padrão. As restrições se enquadram em duas categorias:

  • As restrições impostas garantem que a qualidade e a integridade dos dados adicionados a uma tabela sejam verificadas automaticamente.

  • As restrições informativas key primária e key estrangeira codificam relacionamentos entre campos em tabelas e não são impostas.

Todas as restrições no Databricks exigem Delta Lake.

O Delta Live Tables tem um conceito semelhante, conhecido como expectativas. Veja como gerenciar a qualidade dos dados com pipeline expectativas.

Restrições impostas no Databricks

Quando uma restrição é violada, a transação falha com um erro. Dois tipos de restrições são suportados:

  • NOT NULL: indica que os valores em colunas específicas não podem ser nulos.

  • CHECK: indica que uma expressão Boolean especificada deve ser verdadeira para cada linha de entrada.

Importante

Adicionar uma restrição atualiza automaticamente a versão do protocolo do gravador de tabela se a versão anterior do gravador for menor que 3. Consulte Como o Databricks gerencia a compatibilidade do recurso Delta Lake? para entender o versionamento do protocolo de tabela e o que significa atualizar a versão do protocolo.

Definir uma restrição NOT NULL no Databricks

Você especifica restrições NOT NULL no esquema ao criar uma tabela. Você descarta ou adiciona restrições NOT NULL usando o comando ALTER TABLE ALTER COLUMN .

SQL
CREATE TABLE people10m (
  id INT NOT NULL,
  firstName STRING,
  middleName STRING NOT NULL,
  lastName STRING,
  gender STRING,
  birthDate TIMESTAMP,
  ssn STRING,
  salary INT
);

ALTER TABLE people10m ALTER COLUMN middleName DROP NOT NULL;
ALTER TABLE people10m ALTER COLUMN ssn SET NOT NULL;

Antes de adicionar uma restrição NOT NULL a uma tabela, o Databricks verifica se todas as linhas existentes atendem à restrição.

Se você especificar uma restrição NOT NULL em uma coluna aninhada em uma estrutura, a estrutura pai também não deverá ser nula. As colunas aninhadas em tipos de matriz ou mapa não aceitam restrições NOT NULL .

Consulte CREATE TABLE [USING] e ALTER TABLE ALTER COLUMN.

Definir uma restrição CHECK no Databricks

Você gerencia restrições CHECK usando os comandos ALTER TABLE ADD CONSTRAINT e ALTER TABLE DROP CONSTRAINT . ALTER TABLE ADD CONSTRAINT verifica se todas as linhas existentes atendem à restrição antes de adicioná-la à tabela.

SQL
CREATE TABLE people10m (
  id INT,
  firstName STRING,
  middleName STRING,
  lastName STRING,
  gender STRING,
  birthDate TIMESTAMP,
  ssn STRING,
  salary INT
);

ALTER TABLE people10m ADD CONSTRAINT dateWithinRange CHECK (birthDate > '1900-01-01');
ALTER TABLE people10m DROP CONSTRAINT dateWithinRange;

Consulte ALTER TABLE ADD CONSTRAINT e ALTER TABLE DROP CONSTRAINT.

CHECK as restrições são expostas como propriedades da tabela na saída dos comandos DESCRIBE DETAIL e SHOW TBLPROPERTIES .

SQL
ALTER TABLE people10m ADD CONSTRAINT validIds CHECK (id > 1 and id < 99999999);

DESCRIBE DETAIL people10m;

SHOW TBLPROPERTIES people10m;

Desativar as restrições de verificação

Em Databricks Runtime 15.4 LTS e acima, o senhor pode usar o comando DROP FEATURE para remover restrições de verificação de uma tabela e fazer downgrade do protocolo da tabela.

Consulte Drop Delta table recurso.

Declarar relacionamentos de chave primária e chave estrangeira

Observação

  • As restrições primárias key e estrangeiras key estão disponíveis em Databricks Runtime 11.3 LTS e acima, e são totalmente GA em Databricks Runtime 15.2 e acima.

  • As restrições key primária e key estrangeira requerem Unity Catalog e Delta Lake.

Você pode usar relacionamentos key primária e key estrangeira em campos nas tabelas Unity Catalog . key primária e estrangeira são apenas informativas e não são aplicadas. key estrangeira deve fazer referência a uma key primária em outra tabela.

Você pode declarar key primária e key estrangeira como parte da cláusula de especificação da tabela durante a criação da tabela. Esta cláusula não é permitida durante instruções CTAS. Você também pode adicionar restrições a tabelas existentes.

SQL
CREATE TABLE T(pk1 INTEGER NOT NULL, pk2 INTEGER NOT NULL,
                CONSTRAINT t_pk PRIMARY KEY(pk1, pk2));
CREATE TABLE S(pk INTEGER NOT NULL PRIMARY KEY,
                fk1 INTEGER, fk2 INTEGER,
                CONSTRAINT s_t_fk FOREIGN KEY(fk1, fk2) REFERENCES T);

Você pode query o information_schema ou usar DESCRIBE para obter detalhes sobre como as restrições são aplicadas em um determinado catálogo.

Ver: