sem servidor compute limitações

Este artigo explica as limitações atuais do serverless compute para Notebook e Job. Ele começa com uma visão geral das considerações mais importantes e, em seguida, fornece uma lista de referência abrangente das limitações.

Limitações gerais

Antes de criar novas cargas de trabalho ou migrar cargas de trabalho para serverless compute, considere primeiro as seguintes limitações:

Não há suporte para Scala e R.
Somente as APIs de conexão do Spark são compatíveis. Não há suporte para as APIs do Spark RDD.
JAR biblioteca não são suportados. Para obter soluções alternativas, consulte Práticas recomendadas para serverless compute .
O compute sem servidor está disponível para todos os usuários do workspace.
Notebook não são suportadas. Use as políticas orçamentárias doserverless para marcar o uso do serverless.
ANSI SQL é o default ao escrever SQL. Desative o modo ANSI configurando spark.sql.ansi.enabled para false.
Não há suporte para o Databricks Container Services.
Em default, nenhuma consulta Spark em um notebook serverless pode ser executada por mais de 9000 segundos. Isso é configurável usando a propriedade spark.databricks.execution.timeout. Para obter mais detalhes, consulte Configurar as propriedades do Spark para serverless Notebook e Job. Esse limite não se aplica ao serverless Job.
O senhor deve usar o site Unity Catalog para se conectar a uma fonte de dados externa. Use locais externos para acessar o armazenamento em nuvem.
As funções definidas pelo usuário (UDFs) não podem acessar a Internet. Por esse motivo, o comando CREATE FUNCTION (External) não é compatível. A Databricks recomenda o uso de CREATE FUNCTION (SQL e Python) para criar UDFs.
Ao criar um DataFrame a partir do uso local de dados spark.createDataFrame, o tamanho das linhas não pode exceder 128 MB.
O site Spark UI não está disponível. Em vez disso, use o perfil de consulta para view informações sobre suas consultas Spark. Consulte Perfil de consulta.
Spark logs não estão disponíveis ao usar serverless Notebook e Job. Os usuários só têm acesso aos logs de aplicativos do lado do cliente.
O acesso entreworkspace é permitido somente se o espaço de trabalho estiver na mesma região e o destino workspace não tiver um IP ACL ou um PrivateLink front-end configurado.
Não há suporte para a visualização temporária global. Databricks recomenda o uso da visualização temporária da sessão ou a criação de tabelas em que a passagem de dados entre sessões é necessária.
Não há suporte para coordenadas Maven.

limitações de transmissão

Não há suporte para default ou intervalos de acionamento baseados em tempo. Somente Trigger.AvailableNow é suportado. Consulte Configurar intervalos de acionamento da transmissão estruturada.
Todas as limitações de transmissão no modo de acesso padrão também se aplicam. Veja as limitações de transmissão.

Limitações do notebook

Notebook-As bibliotecas com escopo não são armazenadas em cache nas sessões de desenvolvimento.
O compartilhamento de tabelas TEMP e a visualização ao compartilhar um Notebook entre usuários não são suportados.
Não há suporte para o preenchimento automático e o Variable Explorer para quadros de dados no Notebook.
Em default, o novo Notebook é salvo no formato .ipynb. Se o Notebook for salvo no formato de origem, os metadados do serverless podem não ser capturados corretamente e alguns recursos podem não funcionar como esperado.

Job limitações

A tarefa logs não é isolada por tarefa execução. Os registros conterão a saída de várias tarefas.
A tarefa biblioteca não é compatível com a tarefa Notebook. Em vez disso, use a biblioteca com escopo de Notebook. NotebookConsulte -scoped Pythonbiblioteca.

limitações específicas do computador

Não há suporte para os seguintes recursos específicos do site compute:

Políticas de compute
script de inicialização com escopo de computação
biblioteca com escopo de computação, incluindo fonte de dados personalizada e extensões do site Spark. Em vez disso, use a biblioteca com escopo de Notebook.
instânciaPools
computar evento logs
A maioria das configurações de Apache Spark compute . Para obter uma lista das configurações compatíveis, consulte Configurar propriedades do Spark para serverless Notebook e Job.
variável de ambiente. Em vez disso, o site Databricks recomenda o uso de widgets para criar parâmetros de trabalho e tarefa.

Limitações de cache

O Dataframe e o cache SQL APIs não são compatíveis com o serverless compute. O uso de qualquer um desses APIs ou SQL comando resultará em uma exceção.

Hive limitações

Não há suporte para as tabelas Hive SerDe. Além disso, não há suporte para o comando LOAD DATA correspondente, que carrega dados em uma tabela Hive SerDe. O uso do comando resultará em uma exceção.

O suporte para fontes de dados é limitado a AVRO, BINARYFILE, CSV, DELTA, JSON, Kafka, ORC, Parquet, ORC, TEXT, e XML.
Hive (por exemplo,,,${env:var} ${configName}``${system:var} spark.sql.variablee) ou referências a variáveis de configuração usando a ${var} sintaxe não são suportadas. O uso de variáveis do Hive resultará em uma exceção.

Em vez disso, use DECLARE VARIABLE, SET VARIABLE e referências a variáveis de sessão SQL e marcadores de parâmetros ('?', ou '') para declarar, modificar e referenciar o estado da sessão. Você também pode usar a cláusula IDENTIFIER para parametrizar nomes de objetos em muitos casos.

Fonte de dados suportada

O compute sem servidor é compatível com a seguinte fonte de dados para operações DML (gravação, atualização, exclusão):

CSV
JSON
AVRO
DELTA
KAFKA
PARQUET
ORC
TEXT
UNITY_CATALOG
BINARYFILE
XML
SIMPLESCAN
ICEBERG

serverless compute suporta a seguinte fonte de dados para operações de leitura:

CSV
JSON
AVRO
DELTA
KAFKA
PARQUET
ORC
TEXT
UNITY_CATALOG
BINARYFILE
XML
SIMPLESCAN
ICEBERG
MYSQL
POSTGRESQL
SQLSERVER
REDSHIFT
SNOWFLAKE
SQLDW (Azure Synapse)
DATABRICKS
BIGQUERY
ORACLE
SALESFORCE
SALESFORCE_DATA_CLOUD
TERADATA
WORKDAY_RAAS
MONGODB

Limitações gerais​

limitações de transmissão​

Limitações do notebook​

Job limitações​

limitações específicas do computador​

Limitações de cache​

Hive limitações​

Fonte de dados suportada​