Limitações do modo de acesso de computação para o Unity Catalog

A Databricks recomenda a utilização Unity Catalog e do modo de acesso partilhado para a maioria das cargas de trabalho. Este artigo descreve várias limitações para cada modo de acesso com o Unity Catalog. Para obter detalhes sobre modos de acesso, consulte Modos de acesso.

A Databricks recomenda a utilização de políticas compute para simplificar as opções de configuração para a maioria dos utilizadores. Consulte Criar e gerenciar políticas compute .

Observação

O compartilhamento sem isolamento é um modo de acesso herdado que não oferece suporte ao Unity Catalog.

Importante

O script init e a biblioteca têm suporte diferente nos modos de acesso e nas versões do Databricks Runtime. Consulte Onde o script de inicialização pode ser instalado? e biblioteca com escopo de clusters.

Limitações do modo de acesso de usuário único no Unity Catalog

O modo de acesso de usuário único no Unity Catalog tem as seguintes limitações. Estas são adicionais às limitações gerais para todos os modos de acesso Unity Catalog . Consulte Limitações gerais do Unity Catalog.

Limitações de controle de acesso refinadas para o modo de acesso de usuário único do Unity Catalog

  • Visualizações dinâmicas não são suportadas.

  • Para ler a partir de uma visualização, você deve ter SELECT em todas as tabelas e visualizações referenciadas.

  • O senhor não pode acessar uma tabela que tenha um filtro de linha ou uma máscara de coluna.

  • O senhor não pode usar um único usuário compute para consultar tabelas criadas por um pipeline Delta Live Tables ativado pelo Unity Catalog, incluindo tabelas de transmissão e visualizações materializadas criadas no Databricks SQL. Para consultar tabelas criadas por um pipeline do Delta Live Tables, o senhor deve usar um compute compartilhado usando o Databricks Runtime 13.1 e o acima.

limitações de transmissão para o modo de acesso de usuário único do Unity Catalog

  • O ponto de verificação assíncrono não tem suporte no Databricks Runtime 11.3 LTS e abaixo.

Limitações do modo de acesso compartilhado no Unity Catalog

O modo de acesso compartilhado no Unity Catalog tem as seguintes limitações. Estas são adicionais às limitações gerais para todos os modos de acesso Unity Catalog . Consulte Limitações gerais do Unity Catalog.

  • Databricks Runtime ML e Spark biblioteca do machine learning (MLlib) não são suportados.

  • Trabalhos de envio do Spark não são suportados.

  • Em Databricks Runtime 13.3 e acima, as linhas individuais não podem exceder o tamanho máximo de 128 MB.

  • Quando usados com passagem de credenciais, os recursos do Unity Catalog ficam desabilitados.

  • Contêineres personalizados não são suportados.

Suporte de idioma para o modo de acesso compartilhado do Unity Catalog

  • R não é compatível.

  • O Scala é compatível com o Databricks Runtime 13.3 e acima.

Limitações Spark API para o modo de acesso compartilhado do Unity Catalog

  • Não há suporte para APIs RDD.

  • O DBUtils e outros clientes que leem diretamente os dados do armazenamento cloud são compatíveis apenas quando o senhor usa um local externo para acessar o local de armazenamento. Consulte Criar um local externo para conectar o armazenamento cloud a Databricks.

  • Spark Context (sc),spark.sparkContext e sqlContext não são suportados para Scala em nenhum Databricks Runtime e não são suportados para Python no Databricks Runtime 14.0 e acima.

    • A Databricks recomenda usar a variável spark para interagir com a instância SparkSession .

    • As seguintes funções sc também não são suportadas: emptyRDD, range, init_batched_serializer, parallelize, pickleFile, textFile, wholeTextFiles, binaryFiles, binaryRecords, sequenceFile, newAPIHadoopFile, newAPIHadoopRDD, hadoopFile, hadoopRDD, union, runJob, setSystemProperty, uiWebUrl, stop, setJobGroup, setLocalProperty, getConf.

Limitações UDF para o modo de acesso compartilhado do Unity Catalog

Visualização

O suporte para UDFs do Scala no Unity Catalog habilitado compute com modo de acesso compartilhado está na visualização pública.

As funções definidas pelo usuário (UDFs) têm as seguintes limitações com o modo de acesso compartilhado:

  • Não há suporte para UDFs do Hive.

  • applyInPandas e mapInPandas não são suportados em Databricks Runtime 14.2 e abaixo.

  • No Databricks Runtime 14.2 e acima, há suporte para UDFs escalares do Scala. Não há suporte para outros UDFs e UDAFs do Scala.

  • No Databricks Runtime 13.2 e acima, há suporte para UDFs escalares do Python e UDFs do Pandas. Não há suporte para outros UDFs do Python, incluindo UDAFs, UDTFs e Pandas no Spark.

Consulte Funções definidas pelo usuário (UDFs) no Unity Catalog.

limitações de transmissão para o modo de acesso compartilhado do Unity Catalog

Observação

Algumas das opções do Kafka listadas têm suporte limitado quando usadas em configurações compatíveis no Databricks. Consulte o processamento de transmissão com o Apache Kafka e o Databricks.

  • Para Scala, foreach e foreachBatch não são suportados.

  • Para Python, foreachBatch tem um novo comportamento no Databricks Runtime 14.0 e acima. Consulte Alterações de comportamento do foreachBatch no Databricks Runtime 14.0.

  • Para Scala, from_avro requer Databricks Runtime 14.2 ou acima.

  • applyInPandasWithState não é suportado.

  • Não há suporte para trabalhar com fontes de soquete.

  • O sourceArchiveDir deve estar no mesmo local externo que a origem quando você usa option("cleanSource", "archive") com uma fonte de dados gerenciada pelo Unity Catalog.

  • Para fontes e coletores Kafka, as seguintes opções não são compatíveis:

    • kafka.sasl.client.callback.handler.class

    • kafka.sasl.login.callback.handler.class

    • kafka.sasl.login.class

    • kafka.partition.assignment.strategy

  • As seguintes opções do Kafka têm suporte no Databricks Runtime 13.0, mas não são suportadas no Databricks Runtime 12.2 LTS. Você só pode especificar locais externos gerenciados pelo Unity Catalog para estas opções:

    • kafka.ssl.truststore.location

    • kafka.ssl.keystore.location

  • Você não pode usar instance profile para configurar o acesso a fontes externas, como Kafka ou Kinesis, para cargas de trabalho de transmissão no modo de acesso compartilhado.

Limitações de acesso à rede e ao sistema de arquivos para o modo de acesso compartilhado do Unity Catalog

  • Deve executar o comando em compute nós como um usuário de baixo privilégio proibido de acessar partes confidenciais do sistema de arquivos.

  • No Databricks Runtime 11.3 LTS e abaixo, só é possível criar ligações de rede às portas 80 e 443.

  • Não é possível conectar-se ao serviço de metadados de instância (IMDS), a outras instâncias do EC2 ou a quaisquer outros serviços em execução no Databricks VPC. Isso impede o acesso a qualquer serviço que use o IMDS, como boto3 e AWS CLI.

Limitações gerais do Unity Catalog

As limitações a seguir se aplicam a todos os modos de acesso habilitados para o Unity Catalog.

UDFs

As instâncias do Graviton não são compatíveis com UDFs no Unity Catalog habilitado compute. Existem limitações adicionais para o modo de acesso compartilhado. Consulte as limitações do UDF para o modo de acesso compartilhado do Unity Catalog.

limitações de transmissão para o Unity Catalog

  • O modo de processamento contínuo do Apache Spark não é compatível. Consulte Processamento Contínuo no Guia de Programação do Spark transmissão estruturada.

  • StreamingQueryListener não pode usar credenciais ou interagir com objetos gerenciados pelo Unity Catalog.

Consulte também limitações de transmissão para o modo de acesso de usuário único do Unity Catalog e limitações de transmissão para o modo de acesso compartilhado do Unity Catalog.

Para obter mais informações sobre transmissão com o Unity Catalog, consulte Usando o Unity Catalog com transmissão estruturada.