configuração de computação para Databricks Connect

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Esta página descreve diferentes maneiras de configurar uma conexão entre Databricks Connect e seu Databricks cluster ou serverless compute.

Databricks Connect permite que o senhor conecte aplicativos IDEs populares, como Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, servidores Notebook e outros aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect?

Configuração

Antes de começar, você precisa do seguinte:

Databricks Connect instalado. Para obter os requisitos de instalação, consulte Requisitos de uso do Databricks Connect.
O Databricks workspace nome da instância. Esse é o valor do Server Hostname para seu compute. Consulte Obter detalhes da conexão para um recurso Databricks compute.
Se o senhor estiver se conectando ao site clássico compute, o ID do seu clustering. O senhor pode recuperar o ID do clustering no URL. Consulte computar URL e ID do recurso.

Configurar uma conexão com um clustering

Há várias maneiras de configurar a conexão com seu cluster. O Databricks Connect procura as propriedades de configuração na seguinte ordem e usa a primeira configuração que encontrar. Para obter informações sobre configurações avançadas, consulte Uso avançado do site Databricks Connect.

O método remote () da classe DataBricksSession.
Um perfil de configuração do Databricks
A variável de ambiente DATABRICKS_CONFIG_PROFILE
Uma variável de ambiente para cada propriedade de configuração
Um perfil de configuração Databricks denominado default

O método `remote()` da classe `DatabricksSession`

Para esta opção, que se aplica somente à autenticação com access tokens pessoal Databricks (legado) , especifique o nome da instância workspace , o access token pessoal Databricks e o ID do cluster.

Você pode inicializar a classe DatabricksSession de várias maneiras:

Defina os campos host, token e cluster_id em DatabricksSession.builder.remote().
Use a classe Config do SDK da Databricks.
Especifique um perfil de configuração do Databricks junto com o campo cluster_id.

Em vez de especificar essas propriedades de conexão no código, o site Databricks recomenda configurar as propriedades por meio de variáveis de ambiente ou arquivos de configuração, conforme descrito ao longo desta seção. Os exemplos de código a seguir pressupõem que você forneça alguma implementação das funções retrieve_* propostas para obter as propriedades necessárias do usuário ou de algum outro armazenamento de configuração, como o Google Cloud Secret Manager.

O código para cada uma dessas abordagens é o seguinte:

Python
Scala

Python
# Set the host, token, and cluster_id fields in DatabricksSession.builder.remote.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.remote(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
).getOrCreate()

Scala
// Set the host, token, and clusterId fields in DatabricksSession.builder.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder()
    .host(retrieveWorkspaceInstanceName())
    .token(retrieveToken())
    .clusterId(retrieveClusterId())
    .getOrCreate()

Python
Scala

Python
# Use the Databricks SDK's Config class.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
host       = f"https://{retrieve_workspace_instance_name()}",
token      = retrieve_token(),
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Use the Databricks SDK's Config class.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setHost(retrieveWorkspaceInstanceName())
    .setToken(retrieveToken())
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

Python
Scala

Python
# Specify a Databricks configuration profile along with the `cluster_id` field.
# If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
# cluster's ID, you do not also need to set the cluster_id field here.
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

Um perfil de configuração do Databricks

Para essa opção, crie ou identifique um perfil de configuração do Databricks que contenha o campo cluster_id e quaisquer outros campos que sejam necessários para o tipo de autenticação do Databricks que o senhor deseja usar.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais do Google Cloud (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host e google_service_acccount.

Em seguida, defina o nome desse perfil de configuração por meio da classe de configuração.

Você pode especificar cluster_id de duas maneiras:

Inclua o campo cluster_id em seu perfil de configuração e, em seguida, especifique o nome do perfil de configuração.
Especifique o nome do perfil de configuração junto com o campo cluster_id.

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

O código para cada uma dessas abordagens é o seguinte:

Python
Scala

Python
# Include the cluster_id field in your configuration profile, and then
# just specify the configuration profile's name:
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

Scala
// Include the cluster_id field in your configuration profile, and then
// just specify the configuration profile's name:
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
    val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .getOrCreate()

Python
Scala

Python
# Specify the configuration profile name along with the cluster_id field.
# In this example, retrieve_cluster_id() assumes some custom implementation that
# you provide to get the cluster ID from the user or from some other
# configuration store:
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

config = Config(
profile    = "<profile-name>",
cluster_id = retrieve_cluster_id()
)

spark = DatabricksSession.builder.sdkConfig(config).getOrCreate()

Scala
// Specify a Databricks configuration profile along with the clusterId field.
// If you have already set the DATABRICKS_CLUSTER_ID environment variable with the
// cluster's ID, you do not also need to set the clusterId field here.
import com.databricks.connect.DatabricksSession
import com.databricks.sdk.core.DatabricksConfig

val config = new DatabricksConfig()
    .setProfile("<profile-name>")
val spark = DatabricksSession.builder()
    .sdkConfig(config)
    .clusterId(retrieveClusterId())
    .getOrCreate()

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais do Google Cloud (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host e google_service_acccount.

Defina a variável de ambiente DATABRICKS_CONFIG_PROFILE com o nome desse perfil de configuração. Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Uma variável de ambiente para cada propriedade de configuração

Para essa opção, defina a variável de ambiente DATABRICKS_CLUSTER_ID e qualquer outra variável de ambiente que seja necessária para o tipo de autenticaçãoDatabricks que o senhor deseja usar.

A variável de ambiente necessária para cada tipo de autenticação é a seguinte:

Para Databricks autenticação de tokens de acesso pessoal em: DATABRICKS_HOST DATABRICKS_TOKENe.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): DATABRICKS_HOST, DATABRICKS_CLIENT_ID, DATABRICKS_CLIENT_SECRET.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): DATABRICKS_HOST.
Para autenticação de credenciais do Google Cloud (quando compatível): DATABRICKS_HOST e GOOGLE_CREDENTIALS.
Para autenticação do Google Cloud ID (quando compatível): DATABRICKS_HOST e GOOGLE_SERVICE_ACCOUNT.

Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Um perfil de configuração do Databricks chamado `DEFAULT`

Se o senhor já tiver definido o DATABRICKS_CLUSTER_ID variável de ambiente com o ID do clustering, não precisará especificar também cluster_id.

Os campos de perfil de configuração necessários para cada tipo de autenticação são os seguintes:

Para Databricks autenticação de tokens de acesso pessoal em: host tokene.
Para autenticação OAuth máquina a máquina (M2M) (quando compatível): host, client_id, e client_secret.
Para autenticação OAuth de usuário para máquina (U2M) (quando compatível): host.
Para autenticação de credenciais do Google Cloud (quando compatível): host e google_credentials.
Para autenticação do Google Cloud ID (quando compatível): host e google_service_acccount.

Nomeie esse perfil de configuração como DEFAULT.

Em seguida, inicialize a classe DatabricksSession:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder().getOrCreate()

Configurar uma conexão com serverless compute

info

Visualização

Esse recurso está em Public Preview.

Databricks Connect para Python e Scala oferece suporte à conexão com compute serverless . Para utilizar este recurso, é necessário atender aos requisitos de versão para conexão com serverless . Consulte os requisitos de utilização do Databricks Connect.

importante

Esse recurso tem as seguintes limitações:

Esse recurso é compatível apenas com o Databricks Connect for Python.
As versões do Python, Scala e Databricks Connect devem ser compatíveis. Veja as versões do Databricks Connect.
Todas as limitações do Databricks Connect para Python ou do Databricks Connect para Scala.
Todas as limitações doserverless compute
Somente as dependências Python incluídas como parte do ambiente serverless compute podem ser usadas para UDFs. Consulte as versões do ambiente sem servidor. Dependências adicionais não podem ser instaladas.
Não há suporte para UDFs com módulos personalizados.

Para Python, você pode configurar uma conexão com compute serverless em seu ambiente local:

Defina a variável de ambiente local DATABRICKS_SERVERLESS_COMPUTE_ID como auto. Se essa variável de ambiente for definida, o Databricks Connect ignorará o endereço cluster_id.
Em um perfil de configuração local do Databricks, defina serverless_compute_id = auto e, em seguida, faça referência a esse perfil em seu código.
```
[DEFAULT]
host = https://my-workspace.cloud.databricks.com/
serverless_compute_id = auto
token = dapi123...
```
Ou, para Python ou Scala, use uma das seguintes opções:

Python
Scala

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.serverless(True).getOrCreate()

Python
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.remote(serverless=True).getOrCreate()

Scala
import com.databricks.connect.DatabricksSession

val spark = DatabricksSession.builder.remote().getOrCreate()

nota

A sessão serverless compute é encerrada após 10 minutos de inatividade. Depois disso, uma nova sessão Spark deve ser criada usando getOrCreate() para se conectar a serverless compute.

Validar a conexão com o Databricks

Para validar se seu ambiente, credenciais default e conexão com compute estão configurados corretamente para Databricks Connect, execute o comando databricks-connect test :

Bash
databricks-connect test

Este comando falha com um código de saída diferente de zero e uma mensagem de erro correspondente quando detecta qualquer incompatibilidade na configuração, como quando a versão do Databricks Connect é incompatível com a versão compute serverless Databricks . Para obter informações sobre o suporte da versão Databricks Connect , consulte VersõesDatabricks Connect.

Em Databricks Connect 14.3 e acima, o senhor também pode validar seu ambiente usando validateSession():

DatabricksSession.builder.validateSession(True).getOrCreate()

Desativando o Databricks Connect

Databricks Connect (e o serviço subjacente Spark Connect) pode ser desativado em qualquer clustering.

Para desativar o serviço Databricks Connect, defina a seguinte configuraçãoSpark no clustering.

spark.databricks.service.server.enabled false

Configuração​

Configurar uma conexão com um clustering​

O método remote() da classe DatabricksSession​

Um perfil de configuração do Databricks​

A variável de ambiente DATABRICKS_CONFIG_PROFILE​

Uma variável de ambiente para cada propriedade de configuração​

Um perfil de configuração do Databricks chamado DEFAULT​

Configurar uma conexão com serverless compute​

Validar a conexão com o Databricks​

Desativando o Databricks Connect​

Configuração

Configurar uma conexão com um clustering

O método `remote()` da classe `DatabricksSession`

Um perfil de configuração do Databricks

A variável de ambiente `DATABRICKS_CONFIG_PROFILE`

Uma variável de ambiente para cada propriedade de configuração

Um perfil de configuração do Databricks chamado `DEFAULT`

Configurar uma conexão com serverless compute

Validar a conexão com o Databricks

Desativando o Databricks Connect