Pular para o conteúdo principal

sem servidor compute limitações

Este artigo explica as limitações atuais do serverless compute para Notebook e Job. Ele começa com uma visão geral das considerações mais importantes e, em seguida, fornece uma lista de referência abrangente das limitações.

Visão geral das limitações

Antes de criar novas cargas de trabalho ou migrar cargas de trabalho para serverless compute, considere primeiro as seguintes limitações:

  • Python e SQL são as únicas linguagens suportadas.
  • Somente as APIs de conexão do Spark são compatíveis. Não há suporte para as APIs do Spark RDD.
  • JAR biblioteca não são suportados. Para obter soluções alternativas, consulte Práticas recomendadas para serverless compute .
  • O compute sem servidor está disponível para todos os usuários do workspace.
  • Notebook não são suportadas. Use políticas orçamentárias para marcar o uso do serverless.
  • Para a transmissão, somente a lógica de lotes incrementais pode ser usada. Não há suporte para default ou intervalos de acionamento baseados em tempo. Veja as limitações de transmissão.

Lista de referência de limitações

As seções a seguir listam as limitações atuais do site serverless compute.

O compute sem servidor baseia-se na arquitetura Databricks do modo de acesso padrão compute (anteriormente chamado de modo de acesso compartilhado). As limitações mais relevantes herdadas do modo de acesso padrão estão listadas abaixo, juntamente com outras limitações específicas do serverless. Para obter uma lista completa das limitações do modo de acesso padrão, consulte limitações do modo de acesso de computação para Unity Catalog.

Limitações gerais

  • Não há suporte para Scala e R.

  • ANSI SQL é o default ao escrever SQL. Desative o modo ANSI configurando spark.sql.ansi.enabled para false.

  • Não há suporte para as APIs do Spark RDD.

  • Não há suporte para Spark Context (sc), spark.sparkContext e sqlContext.

  • O terminal web não é suportado.

  • Nenhuma consulta pode ser executada por mais de 48 horas.

  • O senhor deve usar o site Unity Catalog para se conectar a uma fonte de dados externa. Use locais externos para acessar o armazenamento em nuvem.

  • O suporte para fontes de dados é limitado a AVRO, BINARYFILE, CSV, DELTA, JSON, Kafka, ORC, Parquet, ORC, TEXT, e XML.

  • As funções definidas pelo usuário (UDFs) não podem acessar a Internet. Por esse motivo, o comando CREATE FUNCTION (External) não é compatível. A Databricks recomenda o uso de CREATE FUNCTION (SQL e Python) para criar UDFs.

  • As linhas individuais não devem exceder o tamanho máximo de 128 MB.

  • O site Spark UI não está disponível. Em vez disso, use o perfil de consulta para view informações sobre suas consultas Spark. Consulte Perfil de consulta.

  • Spark logs não estão disponíveis ao usar serverless Notebook e Job. Os usuários só têm acesso aos logs de aplicativos do lado do cliente.

  • O acesso entreworkspace é permitido somente se o espaço de trabalho estiver na mesma região e o destino workspace não tiver um IP ACL ou um PrivateLink front-end configurado.

  • Não há suporte para a visualização temporária global. Databricks recomenda o uso da visualização temporária da sessão ou a criação de tabelas em que a passagem de dados entre sessões é necessária.

limitações de transmissão

Limitações do aprendizado de máquina

Limitações do notebook

  • O notebook tem acesso a 8 GB de memória que não pode ser configurada.
  • Notebook-As bibliotecas com escopo não são armazenadas em cache nas sessões de desenvolvimento.
  • O compartilhamento de tabelas TEMP e a visualização ao compartilhar um Notebook entre usuários não são suportados.
  • Não há suporte para o preenchimento automático e o Variable Explorer para quadros de dados no Notebook.

Limitações do fluxo de trabalho

  • O tamanho do driver para serverless compute for Job é fixo no momento e não pode ser alterado.
  • A tarefa logs não é isolada por tarefa execução. Os registros conterão a saída de várias tarefas.
  • A tarefa biblioteca não é compatível com a tarefa Notebook. Em vez disso, use a biblioteca com escopo de Notebook. NotebookConsulte -scoped Pythonbiblioteca.

limitações específicas do computador

Não há suporte para os seguintes recursos específicos do site compute:

Limitações de cache

O Dataframe e o cache SQL APIs não são compatíveis com o serverless compute. O uso de qualquer um desses APIs ou SQL comando resultará em uma exceção.

Hive limitações

  • Não há suporte para as tabelas Hive SerDe. Além disso, não há suporte para o comando LOAD DATA correspondente, que carrega dados em uma tabela Hive SerDe. O uso do comando resultará em uma exceção.

    O suporte para fontes de dados é limitado a AVRO, BINARYFILE, CSV, DELTA, JSON, Kafka, ORC, Parquet, ORC, TEXT, e XML.

  • Hive (por exemplo,,,${env:var} ${configName}``${system:var} spark.sql.variablee) ou referências a variáveis de configuração usando a ${var} sintaxe não são suportadas. O uso de variáveis do Hive resultará em uma exceção.

    Em vez disso, use DECLARE VARIABLE, SET VARIABLE e referências a variáveis de sessão SQL e marcadores de parâmetros ('?', ou '') para declarar, modificar e referenciar o estado da sessão. Você também pode usar a cláusula IDENTIFIER para parametrizar nomes de objetos em muitos casos.