Configurar o local de armazenamento dos resultados do Notebook
Os requisitos de privacidade da sua organização podem exigir que o senhor armazene todos os resultados interativos do Notebook no bucket de armazenamento workspace na sua nuvem account, em vez do local Databricks-gerenciar plano de controle default onde alguns resultados de comando do Notebook são armazenados.
A saída de comando do notebook é armazenada de forma diferente dependendo de como você executa o notebook.
Por padrão, quando você executa um notebook interativamente clicando em Executar no notebook:
- Se os resultados forem pequenos, eles serão armazenados no Databricks plano de controle do, juntamente com o conteúdo e os metadados do comando do Notebook.
- Os resultados maiores são armazenados no bucket de armazenamento workspace em seu Google Cloud account. Databricks cria automaticamente o bucket de armazenamento workspace. Databricks usa essa área de armazenamento para workspace os dados do sistema e o seu workspace's DBFS root. Notebook Os resultados são armazenados no armazenamento de dados do sistema workspace, que não pode ser acessado pelos usuários. Consulte os buckets de armazenamento do espaço de trabalho.
Quando o senhor executa um Notebook como um Job, programando-o ou clicando em executar agora na página Jobs, todos os resultados são armazenados no bucket de armazenamento workspace em seu account.
O senhor pode configurar seu workspace para armazenar todos os resultados do Notebook interativo em sua nuvem account, independentemente do tamanho do resultado.
Configurar o local de armazenamento dos resultados do Notebook interativo
O senhor pode configurar o site workspace para armazenar todos os resultados do Notebook interativo no Google Cloud account, em vez de no plano de controle. O senhor pode ativar esse recurso usando a página de configurações do administrador ou a API REST. Essa configuração não tem efeito sobre a execução do Notebook como Job, cujos resultados já estão armazenados em seu Google Cloud account por default.
Considere os seguintes pontos:
- As alterações nesta configuração são efetivas apenas para novos resultados. Os resultados existentes do notebook não são movidos.
- Alguns metadados sobre os resultados, como nomes de colunas do gráfico, continuam sendo armazenados no plano de controle.
- Seu provedor de nuvem pode incorrer em custos de armazenamento mais altos.
- É possível que ocorra maior latência na rede e E/S ao realizar leituras e gravações de resultados.
Armazene todos os resultados do Notebook em seu site account usando a página de configurações do administrador
Como administrador do workspace:
- Vá para a página de configurações.
- Clique em Security tab.
- Clique na opção Store interactive Notebook results in customer account .
Armazene todos os resultados do Notebook em seu account usando o REST API
Para configurar seu workspace para armazenar todos os resultados do Notebook em seu Google Cloud account usando o REST API:
- Você deve ser um administrador de workspace.
- O senhor precisa de tokens de acesso pessoal. As instruções a seguir pressupõem que o senhor tenha configurado um arquivo
.netrc
com seus tokens de acesso pessoal para que possa usar a opção-n
no comandocurl
. Veja os artigos mencionados acima para obter detalhes.
Para obter a configuração atual, ligue para o ponto de extremidade GET /workspace-conf
e defina keys
como storeInteractiveNotebookResultsInCustomerAccount
:
curl -n --request GET \
'https://<databricks-instance>/api/2.0/workspace-conf?keys=storeInteractiveNotebookResultsInCustomerAccount'
Para permitir que o site workspace armazene os resultados do Notebook interativo no Google Cloud account, chame PATCH /workspace-conf
endpoint e defina storeInteractiveNotebookResultsInCustomerAccount
para true
no corpo da solicitação:
curl -n --request PATCH \
'https://<databricks-instance>/api/2.0/workspace-conf' \
--header 'Content-Type: text/plain' \
--data-raw '{
"storeInteractiveNotebookResultsInCustomerAccount": "true"
}'
Para desativar o recurso, defina o mesmo sinalizador para false
:
curl -n --request PATCH \
'https://<databricks-instance>/api/2.0/workspace-conf' \
--header 'Content-Type: text/plain' \
--data-raw '{
"storeInteractiveNotebookResultsInCustomerAccount": "false"
}'