Use o Jupyter Notebook clássico com o Databricks Connect for Python
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo aborda como usar Databricks Connect para Python com o Jupyter clássico Notebook. Databricks Connect permite que o senhor conecte servidores de notebook populares, IDEs e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
Para usar o Databricks Connect com o Jupyter Notebook clássico e o Python, siga estas instruções.
-
Para instalar o Jupyter clássico Notebook, com o ambiente virtual Python ativado, execute o seguinte comando no terminal ou no prompt de comando:
Bashpip3 install notebook
-
Para começar o Jupyter clássico Notebook em seu navegador da Web, execute o seguinte comando a partir do seu ambiente virtual Python ativado:
Bashjupyter notebook
Se o Jupyter Notebook clássico não aparecer em seu navegador da Web, copie o URL que começa com
localhost
ou127.0.0.1
do seu ambiente virtual e insira-o na barra de endereços do navegador da Web. -
Crie um novo Notebook: no Jupyter clássico Notebook, em Files tab, clique em New > Python 3 (ipykernel) .
-
Na primeira célula do Notebook, digite o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá, no mínimo, inicializar
DatabricksSession
conforme mostrado no código de exemplo. -
Para executar o Notebook, clique em Cell > executar All . Todo o código Python é executado localmente, enquanto todo o código PySpark que envolve DataFrame operações é executado no clustering no Databricks workspace remoto e as respostas de execução são enviadas de volta ao chamador local.
-
Para depurar o Notebook, adicione a seguinte linha de código no início do Notebook:
from IPython.core.debugger import set_trace
E, em seguida, chamar
set_trace()
para inserir instruções de depuração nesse ponto da execução do Notebook. Todo o código do Python é depurado localmente, enquanto todo o código do PySpark continua a ser executado no clustering no Databricks remoto workspace. O código principal do mecanismo do Spark não pode ser depurado diretamente do cliente. -
Para encerrar o Jupyter Notebook clássico, clique em File > Close and Halt . Se o processo clássico do Jupyter Notebook ainda estiver em execução no terminal ou no prompt de comando, interrompa esse processo pressionando
Ctrl + c
e, em seguida, digitandoy
para confirmar.