Use JupyterLab com Databricks Connect para Python

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.

Este artigo aborda como usar o Databricks Connect for Python com JupyterLab. O Databricks Connect permite conectar servidores Notebook populares, IDEs e outros aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Para usar o Databricks Connect com JupyterLab e Python, siga estas instruções.

  1. Para instalar o JupyterLab, com seu ambiente virtual Python ativado, execute o seguinte comando em seu terminal ou prompt de comando:

    pip3 install jupyterlab
    
  2. Para iniciar o JupyterLab em seu navegador, execute o seguinte comando em seu ambiente virtual Python ativado:

    jupyter lab
    

    Se o JupyterLab não aparecer no seu navegador, copie o URL que começa com localhost ou 127.0.0.1 do seu ambiente virtual e insira-o na barra de endereço do seu navegador.

  3. Crie um novo notebook: no JupyterLab, clique em Arquivo > Novo > Notebook no menu principal, selecione Python 3 (ipykernel) e clique em Selecionar.

  4. Na primeira célula do Notebook , insira o código de exemplo ou seu próprio código. Se você usar seu próprio código, deverá inicializar no mínimo DatabricksSession conforme mostrado no código de exemplo.

  5. Para executar o Notebook, clique em execução > execução Todas as Células. Todo o código é executado localmente, enquanto todo o código que envolve operações do DataFrame é executado nos clusters no workspace remoto do Databricks e as respostas de execução são enviadas de volta ao chamador local.

  6. Para depurar o Notebook, clique no ícone do bug (Habilitar Depurador) próximo a Python 3 (ipykernel) na barra de ferramentas do Notebook . Defina um ou mais pontos de interrupção e clique em execução > execução Todas as células. Todo o código é depurado localmente, enquanto todo o código Spark continua a ser executado nos clusters no workspace remoto do Databricks. O código principal do mecanismo Spark não pode ser depurado diretamente do cliente.

  7. Para encerrar o JupyterLab, clique em Arquivo > Desligar. Se o processo JupyterLab ainda estiver em execução no terminal ou no prompt de comando, interrompa o processo pressionando Ctrl + c e digitando y para confirmar.

Para obter instruções de depuração mais específicas, consulte Depurador.