configuração de computação para Databricks Connect

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Neste artigo, o senhor configura as propriedades para estabelecer uma conexão entre Databricks Connect e seu Databricks clustering serverless computeou. Estas informações se aplicam às versões Python e Scala do site Databricks Connect, salvo indicação em contrário.

Databricks Connect permite que o senhor conecte aplicativos IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?

Requisitos

Para configurar uma conexão com Databricks compute, o senhor deve ter:

Databricks Connect instalado. Para obter os requisitos e as etapas de instalação para versões de idiomas específicos do Databricks Connect, consulte:
A Databricks account e workspace que têm Unity Catalog ativado. Consulte Get começar with Unity Catalog e Enable a workspace for Unity Catalog.
A versão Databricks Runtime do seu compute deve ser igual ou superior à versão do pacote Databricks Connect. A Databricks recomenda que o senhor use o pacote mais recente do Databricks Connect que corresponda à versão do Databricks Runtime. Para obter os requisitos da versão compute, consulte a matriz de suporte de versão para Databricks Connect para Python ou Databricks Connect para Scala.

Para usar os recursos que estão disponíveis em versões posteriores do Databricks Runtime, o senhor deve atualizar o pacote Databricks Connect. Consulte o site Databricks Connect notas sobre a versão para obter uma lista das versões disponíveis em Databricks Connect. Para obter notas sobre a versão Databricks Runtime, consulte Databricks Runtime notas sobre a versão versões e compatibilidade.
Se o senhor estiver usando o site clássico compute, o clustering deverá usar um modo de acesso de clustering Atribuído ou Compartilhado. Consulte Modos de acesso.

Configuração

Antes de começar, você precisa do seguinte:

Se o senhor estiver se conectando a um cluster, o ID do cluster. O senhor pode recuperar o ID do clustering a partir do URL. Consulte URL e ID de clustering.
O Databricks workspace nome da instância. Esse é o valor do Server Hostname para seu compute. Consulte Obter detalhes da conexão para um recurso Databricks compute.
Quaisquer outras propriedades que sejam necessárias para o tipo de autenticação do Databricks que o senhor deseja usar.

nota

Para a autenticaçãoOAuth user-to-machine (U2M), o senhor deve usar o Databricks CLI para se autenticar antes de executar o código. Consulte o tutorial do Databricks Connect para Python ou o tutorial do Databricks Connect para Scala.

Configurar uma conexão com um clustering

Há várias maneiras de configurar a conexão com seu clustering. O Databricks Connect procura as propriedades de configuração na seguinte ordem e usa a primeira configuração que encontrar. Para obter informações sobre configurações avançadas, consulte Uso avançado do Databricks Connect para Python.

O método remote () da classe DataBricksSession.
Um perfil de configuração do Databricks
A variável de ambiente DATABRICKS_CONFIG_PROFILE
Uma variável de ambiente para cada propriedade de configuração
Um perfil de configuração Databricks denominado default

O método `remote()` da classe `DatabricksSession`

Para essa opção, que se aplica somente à autenticação de tokens de acesso pessoalDatabricks, especifique o nome da instância workspace, os tokens de acesso pessoal Databricks e o ID do clustering.

Você pode inicializar a classe DatabricksSession de várias maneiras:

Defina os campos host, token e cluster_id em DatabricksSession.builder.remote().
Use a classe Config do SDK da Databricks.
Especifique um perfil de configuração do Databricks junto com o campo cluster_id.

Em vez de especificar essas propriedades de conexão no código, o site Databricks recomenda configurar as propriedades por meio de variáveis de ambiente ou arquivos de configuração, conforme descrito ao longo desta seção. Os exemplos de código a seguir pressupõem que o senhor forneça alguma implementação das funções propostas em retrieve_* para obter as propriedades necessárias do usuário ou de algum outro armazenamento de configuração, como o AWS Systems Manager Parameter Store.

O código para cada uma dessas abordagens é o seguinte:

Python
Scala

Python
# Set the host, token, and cluster_id fields in DatabricksSession.builder.remote.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.remote(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
).getOrCreate()

Scala
// Set the host, token, and clusterId fields in DatabricksSession.builder.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder()
    .host(retrieveWorkspaceInstanceName())
    .token(retrieveToken())
    .clusterId(retrieveClusterId())
    .getOrCreate()

Python
Scala

Python
# Use the Databricks SDK's Config class.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Use the Databricks SDK's Config class.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setHost(retrieveWorkspaceInstanceName())
    .setToken(retrieveToken())
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

Python
Scala

Python
# Specify a Databricks configuration profile along with the `cluster_id` field.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

Um perfil de configuração do Databricks

Para essa opção, crie ou identifique um perfil de configuração do Databricks que contenha o campo cluster_id e quaisquer outros campos que sejam necessários para o tipo de autenticação do Databricks que o senhor deseja usar.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.

nota

A autenticação básica usando um nome de usuário e senha da Databricks chegou ao fim da vida útil em 10 de julho de 2024. Consulte End of life para Databricks-gerenciar senhas.

Em seguida, defina o nome desse perfil de configuração por meio da classe de configuração.

nota

O senhor pode usar a opção --configure-cluster do comando auth login para adicionar automaticamente o campo cluster_id a um perfil de configuração novo ou existente. Para obter mais informações, execute o comando databricks auth login -h.

Você pode especificar cluster_id de duas maneiras:

Inclua o campo cluster_id em seu perfil de configuração e, em seguida, especifique o nome do perfil de configuração.
Especifique o nome do perfil de configuração junto com o campo cluster_id.

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

O código para cada uma dessas abordagens é o seguinte:

Python
Scala

Python
# Include the cluster_id field in your configuration profile, and then
# just specify the configuration profile's name:
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

Scala
// Include the cluster_id field in your configuration profile, and then
// just specify the configuration profile's name:
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
    val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .getOrCreate()

Python
Scala

Python
# Specify the configuration profile name along with the cluster_id field.
# In this example, retrieve_cluster_id() assumes some custom implementation that
# you provide to get the cluster ID from the user or from some other
# configuration store:
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.

nota

A autenticação básica usando um nome de usuário e senha da Databricks chegou ao fim da vida útil em 10 de julho de 2024. Consulte End of life para Databricks-gerenciar senhas.

nota

O senhor pode usar o --configure-cluster do comando auth login para adicionar automaticamente o campo cluster_id a um perfil de configuração novo ou existente. Para obter mais informações, execute o comando databricks auth login -h.

Defina a variável de ambiente DATABRICKS_CONFIG_PROFILE com o nome desse perfil de configuração. Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Uma variável de ambiente para cada propriedade de configuração

Para essa opção, defina a variável de ambiente DATABRICKS_CLUSTER_ID e qualquer outra variável de ambiente que seja necessária para o tipo de autenticaçãoDatabricks que o senhor deseja usar.

A variável de ambiente necessária para cada tipo de autenticação é a seguinte:

Para Databricks autenticação de tokens de acesso pessoal em: DATABRICKS_HOST DATABRICKS_TOKENe.
Para autenticação OAuth máquina a máquina (M2M): DATABRICKS_HOST, DATABRICKS_CLIENT_ID, e DATABRICKS_CLIENT_SECRET.
Para autenticação OAuth de usuário para máquina (U2M): DATABRICKS_HOST.

nota

A autenticação básica usando um nome de usuário e senha da Databricks chegou ao fim da vida útil em 10 de julho de 2024. Consulte End of life para Databricks-gerenciar senhas.

Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Um perfil de configuração do Databricks chamado `DEFAULT`

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.

nota

A autenticação básica usando um nome de usuário e senha da Databricks chegou ao fim da vida útil em 10 de julho de 2024. Consulte End of life para Databricks-gerenciar senhas.

Nomeie esse perfil de configuração como DEFAULT.

nota

O senhor pode usar a opção --configure-cluster do comando auth login para adicionar automaticamente o campo cluster_id ao perfil de configuração DEFAULT. Para obter mais informações, execute o comando databricks auth login -h.

Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Configurar uma conexão com serverless compute

info

Visualização

Esse recurso está em Public Preview.

Databricks Connect para Python suporta a conexão com serverless compute. Para usar esse recurso, os requisitos de versão para conexão com o serverless devem ser atendidos. Consulte os requisitos.

important

Esse recurso tem as seguintes limitações:

Esse recurso é compatível apenas com o Databricks Connect for Python.
As versões do Python e do Databricks Connect devem ser compatíveis. Consulte a matriz de suporte de versões.
Todas as limitações do Databricks Connect for Python
Todas as limitações doserverless compute
Somente as dependências Python incluídas como parte do ambiente serverless compute podem ser usadas para UDFs. Consulte as versões do ambiente sem servidor. Dependências adicionais não podem ser instaladas.
Não há suporte para UDFs com módulos personalizados.

O senhor pode configurar uma conexão com serverless compute de uma das seguintes maneiras:

Defina a variável de ambiente local DATABRICKS_SERVERLESS_COMPUTE_ID como auto. Se essa variável de ambiente for definida, o Databricks Connect ignorará o endereço cluster_id.
Em um perfil de configuração local do Databricks, defina serverless_compute_id = auto e, em seguida, faça referência a esse perfil em seu código.
```
[DEFAULT]
host = https://my-workspace.cloud.databricks.com/
serverless_compute_id = auto
token = dapi123...
```
Ou use uma das seguintes opções:

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.serverless(True).getOrCreate()

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.remote(serverless=True).getOrCreate()

nota

A sessão serverless compute é encerrada após 10 minutos de inatividade. Depois disso, uma nova sessão Spark deve ser criada usando getOrCreate() para se conectar a serverless compute.

Validar a conexão com o Databricks

Para validar seu ambiente, as credenciais do default e a conexão com o compute estão configuradas corretamente para o Databricks Connect, execute o comando databricks-connect test, que falha com um código de saída diferente de zero e uma mensagem de erro correspondente quando detecta qualquer incompatibilidade na configuração.

Bash

databricks-connect test

Em Databricks Connect 14.3 e acima, o senhor também pode validar seu ambiente usando validateSession():

DatabricksSession.builder.validateSession(True).getOrCreate()

Desativando o Databricks Connect

Databricks Connect (e o serviço subjacente Spark Connect) pode ser desativado em qualquer clustering.

Para desativar o serviço Databricks Connect, defina a seguinte configuraçãoSpark no clustering.

spark.databricks.service.server.enabled false

Requisitos​

Configuração​

Configurar uma conexão com um clustering​

O método remote() da classe DatabricksSession​

Um perfil de configuração do Databricks​

A variável de ambiente DATABRICKS_CONFIG_PROFILE​

Uma variável de ambiente para cada propriedade de configuração​

Um perfil de configuração do Databricks chamado DEFAULT​

Configurar uma conexão com serverless compute​

Validar a conexão com o Databricks​

Desativando o Databricks Connect​

Requisitos

Configuração

Configurar uma conexão com um clustering

O método `remote()` da classe `DatabricksSession`

Um perfil de configuração do Databricks

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Uma variável de ambiente para cada propriedade de configuração

Um perfil de configuração do Databricks chamado `DEFAULT`

Configurar uma conexão com serverless compute

Validar a conexão com o Databricks

Desativando o Databricks Connect