Pular para o conteúdo principal

Notebook compute recurso

Este artigo aborda as opções do Notebook compute recurso. O senhor pode executar um Notebook em um recurso multifuncional compute, serverless compute, ou, para SQL comando, pode usar um SQL warehouse, um tipo de compute- otimizado para SQL analítica. Para saber mais sobre os tipos de compute, consulte compute.

computepadrão

Em espaços de trabalho com o Unity Catalog habilitado, o novo Notebook default compute serverless por padrão. Se você não selecionar manualmente um recurso compute e executar uma célula, o Notebook se conectará automaticamente à compute serverless .

computede conexão automática

Nas suas configurações de desenvolvedor, você pode configurar o Notebook para se conectar automaticamente a um recurso compute e iniciar uma sessão quando você interagir com o editor:

  1. Clique no ícone do seu usuário no canto superior esquerdo.

  2. Clique em Configurações .

  3. Clique em Desenvolvedor para acessar as configurações de desenvolvedor.

  4. Ative a opção "Criar sessão automaticamente ao interagir com o editor" para iniciar automaticamente uma sessão compute ao interagir com o editor. Databricks usará default um recurso compute com base em suas preferências (serverless ou SQL warehouse) e no último recurso compute utilizado.

    ou

    Desative esta configuração se não quiser que o Notebook se conecte e inicie automaticamente um recurso compute .

Os recursos de assistência de código, incluindo preenchimento automático, formatação de código e o depurador, exigem que o Notebook esteja conectado a uma sessão compute ativa. Se o Notebook não tiver iniciado uma sessão compute , os recursos de assistência de código ficarão inativos.

sem servidor compute para Notebook

sem servidor compute permite que o senhor conecte rapidamente seu Notebook a um recurso de computação sob demanda.

Para conectar-se ao compute serverless , clique no menu suspenso compute no Notebook e selecione "sem servidor" .

Consulte compute sem servidor para Notebook para obter mais informações.

Restauração automatizada de sessões para o serverless Notebook

O encerramento parado do serverless compute pode fazer com que o senhor perca o trabalho em andamento, como os valores das variáveis do Python, no Notebook. Para evitar isso, ative a restauração automatizada da sessão para serverless Notebook .

  1. Clique no seu nome de usuário no canto superior direito do site workspace e, em seguida, clique em Settings (Configurações ) na lista dropdown.
  2. Na barra lateral Configurações , selecione Desenvolvedor .
  3. Em Recurso experimental , ative a configuração Automated session restoration for serverless Notebook .

Habilitar essa configuração permite que Databricks capture um instantâneo do estado da memória do Notebook serverless antes do encerramento do Parado. Ao retornar a um Notebook após uma desconexão do Parado, um banner aparece na parte superior da página. Clique em Reconectar para restaurar seu estado de funcionamento.

Quando você se reconecta, o Databricks restabelece todo o seu ambiente de trabalho, incluindo:

  • Variáveis, funções e definições de classe em Python : o estado do Python é serializado em processo usando pickle/cloudpickle e restaurado em um novo REPL, portanto, você não precisa reimportar ou redeclarar.
  • Spark DataFrames, visualização em cache e temporária : os dados que você carregou, transformou ou armazenou em cache (incluindo a visualização temporária) são preservados, evitando assim recarregamentos ou recálculos dispendiosos.
  • Estado da sessãoSpark : as configurações em nível Spark , a visualização temporária, as modificações no catálogo e as funções definidas pelo usuário (UDFs) são restauradas por meio da migração da sessão Spark Connect, portanto, você não precisa redefini-las.

Se o ambiente tiver sido alterado de forma a tornar a desserialização insegura, por exemplo, devido a versões incompatíveis Python ou do pacote, o Snapshot será invalidado e o Notebook recorrerá a uma nova sessão.

Armazenamento de dadosSnapshot

Os dados Snapshot são armazenados no armazenamentodefault do seu workspace . O próprio Notebook armazena apenas metadados, incluindo um ponteiro com o ID do Notebook, um registro de data e hora e informações da sessão. Os dados não estão armazenados no Notebook. Os caminhos dos Blobs são criptografados antes de serem armazenados nos atributos do Notebook, e os caminhos dos Snapshots são excluídos da exportação e importação do Notebook para evitar a restauração do estado em um workspace diferente.

Os snapshots seguem o TTL padrão do seu armazenamento cloud (cerca de um mês) e expiram automaticamente. Excluir um Notebook também exclui seu Snapshot. Sua account cloud incorre em custos de armazenamento como parte do uso padrão workspace . O recurso usa serialização de processos Python em vez de checkpointing em nível de contêiner, o que mantém o Snapshot menor e mais rápido de criar.

Segurança e controle de acesso

A restauração Snapshot respeita as permissões do Notebook. Restaurar o estado requer permissão de execução no Notebook. Os metadados criptografados impedem que os visualizadores busquem diretamente os blobs do Snapshot, e as verificações de permissão são aplicadas na restauração.

Limitações

Esse recurso tem limitações e não oferece suporte à restauração dos seguintes itens:

  • Estados Spark com mais de 4 dias
  • Estados Spark maiores que 50 MB
  • Dados relacionados ao script SQL
  • Alças de arquivo
  • Bloqueios e outras primitivas de concorrência
  • Conexões de rede

Anexe um Notebook a um recurso multifuncional compute

Para anexar um Notebook a um recurso multifuncional compute, o senhor precisa da permissãoCAN ATTACH TO no recurso compute.

importante

Desde que um Notebook esteja anexado a um recurso compute, qualquer usuário com a permissãoCAN RUN no Notebook tem permissão implícita para acessar o recurso compute.

Para anexar um Notebook a um recurso do site compute, clique no seletorcompute na barra de ferramentas do Notebook e selecione o recurso no menu dropdown.

O menu mostra uma seleção de armazéns para todos os fins compute e SQL que o senhor usou recentemente ou está executando no momento.

Anexar o notebook

Para selecionar entre todas as opções disponíveis compute, clique em More.... Selecione entre os armazéns gerais disponíveis compute ou SQL.

mais diálogo de clusters

O senhor também pode criar um novo recurso para todos os fins no site compute selecionando Create new recurso no menu dropdown.

importante

Um bloco de anotações anexado tem as seguintes variáveis do Apache Spark definidas.

Aula

Nome da variável

SparkContext

sc

SQLContext/HiveContext

sqlContext

SparkSession (Spark 2.x)

spark

Não crie um SparkSession, SparkContext, ou SQLContext. Fazer isso levará a um comportamento inconsistente.

Use um notebook com um SQL warehouse

Quando um Notebook é anexado a um SQL warehouse, o senhor pode executar SQL e células Markdown. A execução de uma célula em qualquer outra linguagem (como Python ou R) gera um erro. SQL As células executadas em um SQL warehouse aparecem no histórico de consultas doSQL warehouse. O usuário que executa uma consulta pode view o perfil da consulta no Notebook clicando no tempo decorrido na parte inferior da saída.

Os notebooks conectados ao SQL Warehouse oferecem suporte a sessões SQL warehouse , permitindo definir variáveis, criar visualizações temporárias e persistir o estado entre várias execuções de consultas. Isso permite que você construa a lógica SQL de forma iterativa, sem precisar executar todas as instruções de uma só vez. Consulte O que são sessões SQL warehouse ?

A execução de um notebook requer um profissional ou serverless SQL warehouse. O senhor deve ter acesso ao workspace e ao SQL warehouse.

Para anexar um Notebook a um SQL warehouse faça o seguinte:

  1. Clique no seletorcompute na barra de ferramentas do Notebook. O menu dropdown mostra compute recursos que estão em execução no momento ou que o senhor utilizou recentemente. SQL Os armazéns estão marcados com Rótulo do SQL warehouse.

  2. No menu, selecione um SQL warehouse.

    Para ver todos os SQL warehouse disponíveis, selecione Mais… no menu dropdown. Uma caixa de diálogo aparece mostrando os recursos de computação disponíveis para o notebook. Selecione SQL warehouse , escolha o armazém que deseja usar e clique em Anexar .

    mais diálogo de cluster com o SQL warehouse selecionado

O senhor também pode selecionar um SQL warehouse como o compute recurso para um SQL Notebook quando criar um fluxo de trabalho ou um trabalho agendado.

Limitações do SQL warehouse

Consulte Limitações conhecidas Databricks Notebook para obter mais informações.