tutorial: execução Python em um cluster e como um Job usando a extensão Databricks para Visual Studio Code

Este tutorial orienta o senhor na configuração da extensão Databricks para o Visual Studio Code e, em seguida, na execução do Python em um Databricks cluster e como um Databricks Job em seu workspace remoto. Consulte O que é a extensão Databricks para o Visual Studio Code?

Requisitos

Este tutorial requer isso:

o passo 1: Criar um novo projeto Databricks

Neste passo, o senhor cria um novo projeto Databricks e configura a conexão com o site remoto Databricks workspace.

  1. Inicie o Visual Studio Code, clique em Arquivo > Abrir pasta e abra uma pasta vazia em sua máquina de desenvolvimento local.

  2. Na barra lateral, clique no ícone do logotipo da Databricks. Isso abre a extensão Databricks.

  3. Em Configuration view , clique em Migrate to a Databricks Project (Migrar para um projeto).

  4. A paleta de comandos para configurar seu Databricks workspace é aberta. Para Databricks Host, digite ou selecione o URL da instância do seu espaço de trabalho, por exemplo, https://dbc-a1b2345c-d6e7.cloud.databricks.com.

  5. Selecione um perfil de autenticação para o projeto. Consulte Configuração de autenticação para a extensão Databricks para Visual Studio Code.

o passo 2: Adicione cluster informações à extensão Databricks e comece a cluster

  1. Com o site Configuration view já aberto, clique em Select a cluster ou clique no ícone de engrenagem(Configure cluster).

    Configurar o cluster
  2. Na paleta de comandos, selecione o nome do site cluster que o senhor criou anteriormente.

  3. Clique no ícone de reprodução(cluster começar) se ele ainda não estiver começando.

o passo 3: Criar e executar o código Python

  1. Crie um arquivo de código Python local: na barra lateral, clique no ícone da pasta (Explorador).

  2. No menu principal, clique em Arquivo > Novo Arquivo. Nomeie o arquivo demo.py e salve-o na raiz do projeto.

  3. Adicione o seguinte código ao arquivo e salve-o. Este código cria e exibe o conteúdo de um DataFrame PySpark básico:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Clique no ícone de execução em Databricks ao lado da lista da guia do editor e, em seguida, clique em upload e execução de arquivo. A saída aparece no Console de depuração view.

    upload e executar o arquivo a partir do ícone

    Como alternativa, no Explorer view, clique com o botão direito do mouse no arquivo demo.py e, em seguida, clique em executar em Databricks > upload and execution File.

    upload e executar o arquivo no menu de contexto

o passo 4: execução do código como um Job

Para executar demo.py como um trabalho, clique no ícone executar em Databricks ao lado da lista da guia do editor e, em seguida, clique em executar File como fluxo de trabalho. A saída aparece em um editor separado tab ao lado do editor de arquivos demo.py.

execução de arquivo como fluxo de trabalho a partir do ícone

Como alternativa, clique com o botão direito do mouse no arquivo demo.py no painel Explorer e selecione executar em Databricks > executar arquivo como fluxo de trabalho.

executar arquivo como fluxo de trabalho a partir do menu de contexto

Próximas etapas

Agora que o senhor já usou com sucesso a extensão Databricks para o Visual Studio Code para upload um arquivo Python local e executá-lo remotamente, também é possível: