Pular para o conteúdo principal

Configurar o local de armazenamento dos resultados do Notebook

Os requisitos de privacidade da sua organização podem exigir que o senhor armazene todos os resultados interativos do Notebook no bucket de armazenamento workspace na sua nuvem account, em vez do local Databricks-gerenciar plano de controle default onde alguns resultados de comando do Notebook são armazenados.

A saída de comando do notebook é armazenada de forma diferente dependendo de como você executa o notebook.

Por padrão, quando você executa um notebook interativamente clicando em Executar no notebook:

  • Se os resultados forem pequenos, eles serão armazenados no Databricks plano de controle do, juntamente com o conteúdo e os metadados do comando do Notebook.
  • Os resultados maiores são armazenados no bucket de armazenamento workspace em seu site AWS account. Databricks usa esse bucket para os dados do sistema workspace e o seu workspace's DBFS root. Notebook Os resultados são armazenados na parte de dados do sistema workspace do bucket, que não pode ser acessada pelos usuários. Consulte o balde de armazenamento do espaço de trabalho.

Quando o senhor executa um Notebook como um Job, programando-o ou clicando em executar agora na página Jobs, todos os resultados são armazenados no bucket de armazenamento workspace em seu account.

O senhor pode configurar seu workspace para armazenar todos os resultados do Notebook interativo em sua nuvem account, independentemente do tamanho do resultado.

Configurar o local de armazenamento dos resultados do Notebook interativo

O senhor pode configurar o seu workspace para armazenar todos os resultados do Notebook interativo no seu AWS account, em vez de no plano de controle. O senhor pode ativar esse recurso usando a página de configurações do administrador ou a API REST. Essa configuração não tem efeito sobre a execução do Notebook como Job, cujos resultados já estão armazenados em seu AWS account por default.

Considere os seguintes pontos:

  • As alterações nesta configuração são efetivas apenas para novos resultados. Os resultados existentes do notebook não são movidos.
  • Alguns metadados sobre os resultados, como nomes de colunas do gráfico, continuam sendo armazenados no plano de controle.
  • Seu provedor de nuvem pode incorrer em custos de armazenamento mais altos.
  • É possível que ocorra maior latência na rede e E/S ao realizar leituras e gravações de resultados.

Armazene todos os resultados do Notebook em seu site account usando a página de configurações do administrador

Como administrador do workspace:

  1. Vá para a página de configurações.
  2. Clique em Security tab.
  3. Clique na opção Store interactive Notebook results in customer account .

Armazene todos os resultados do Notebook em seu account usando o REST API

Para configurar seu workspace para armazenar todos os resultados do notebook em sua conta da AWS usando a API REST:

  • Você deve ser um administrador de workspace.
  • O senhor precisa de tokens de acesso pessoal. As instruções a seguir pressupõem que o senhor tenha configurado um arquivo .netrc com seus tokens de acesso pessoal para que possa usar a opção -n no comando curl. Veja os artigos mencionados acima para obter detalhes.

Para obter a configuração atual, ligue para o ponto de extremidade GET /workspace-conf e defina keys como storeInteractiveNotebookResultsInCustomerAccount:

Bash
curl -n --request GET \
'https://<databricks-instance>/api/2.0/workspace-conf?keys=storeInteractiveNotebookResultsInCustomerAccount'

Para permitir que seu workspace armazene os resultados do notebook interativo em sua conta do AWS, chame o ponto de extremidade PATCH /workspace-conf e defina storeInteractiveNotebookResultsInCustomerAccount como true no corpo da solicitação:

Bash
curl -n --request PATCH \
'https://<databricks-instance>/api/2.0/workspace-conf' \
--header 'Content-Type: text/plain' \
--data-raw '{
"storeInteractiveNotebookResultsInCustomerAccount": "true"
}'

Para desativar o recurso, defina o mesmo sinalizador para false:

Bash
curl -n --request PATCH \
'https://<databricks-instance>/api/2.0/workspace-conf' \
--header 'Content-Type: text/plain' \
--data-raw '{
"storeInteractiveNotebookResultsInCustomerAccount": "false"
}'