Databricks utilidades com para Databricks Connect Python
Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.
Este artigo descreve como usar Databricks utilidades com Databricks Connect para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Databricks utilidades com Databricks Connect para Scala.
Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.
O senhor usa Databricks Connect para acessar Databricks utilidades da seguinte forma:
- Use a variável
dbutils
da classeWorkspaceClient
para acessar Databricks utilidades. A classeWorkspaceClient
pertence ao Databricks SDK for Python e está incluída no Databricks Connect. - Use
dbutils.fs
para acessar o site Databricks utilidades fs utilidades. - Use
dbutils.secrets
para acessar o site Databricks utilidades secrets utilidades. - Nenhuma funcionalidade de Databricks utilidades além das utilidades anteriores está disponível por meio de
dbutils
.
O senhor também pode usar o Databricks SDK incluído para Python para acessar qualquer Databricks REST API disponível, não apenas o Databricks utilidades APIs anterior. Veja databricks-sdk no PyPI.
Para inicializar WorkspaceClient
, o senhor deve fornecer informações suficientes para autenticar um Databricks SDK com o workspace. Por exemplo, você pode:
-
Codifique o URL workspace e seus tokens de acesso diretamente no código e, em seguida, inicialize
WorkspaceClient
da seguinte forma. Embora essa opção seja compatível, o site Databricks não a recomenda, pois pode expor informações confidenciais, como o acesso tokens, se o seu código for verificado no controle de versão ou compartilhado de outra forma:Pythonfrom databricks.sdk import WorkspaceClient
w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}",
token = retrieve_token()) -
Crie ou especifique um perfil de configuração que contenha os campos
host
etoken
e inicialize oWorkspaceClient
da seguinte forma:Pythonfrom databricks.sdk import WorkspaceClient
w = WorkspaceClient(profile = "<profile-name>") -
Defina a variável de ambiente
DATABRICKS_HOST
eDATABRICKS_TOKEN
da mesma forma que o senhor as definiu para Databricks Connect e, em seguida, inicializeWorkspaceClient
da seguinte forma:Pythonfrom databricks.sdk import WorkspaceClient
w = WorkspaceClient()
O Databricks SDK para Python não reconhece a variável de ambiente SPARK_REMOTE
para o Databricks Connect.
Para obter opções adicionais de autenticação Databricks para o Databricks SDK para Python, bem como para saber como inicializar AccountClient
nos SDKs Databricks para acessar Databricks REST APIs disponíveis no nível account em vez de no nível workspace, consulte databricks-sdk em PyPI.
O exemplo a seguir mostra como usar o Databricks SDK para Python para automatizar as utilidades do Databricks. Este exemplo cria um arquivo chamado zzz_hello.txt
no caminho de um volume Unity Catalog dentro do workspace, lê os dados do arquivo e, em seguida, exclui o arquivo. Este exemplo pressupõe que as variáveis de ambiente DATABRICKS_HOST
e DATABRICKS_TOKEN
já tenham sido definidas:
from databricks.sdk import WorkspaceClient
w = WorkspaceClient()
file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs
fs.put(
file = file_path,
contents = file_data,
overwrite = True
)
print(fs.head(file_path))
fs.rm(file_path)
Consulte também Interação com dbutils na documentação do Databricks SDK para Python.