Pular para o conteúdo principal

Databricks utilidades com para Databricks Connect Python

nota

Este artigo abrange o Databricks Connect para Databricks Runtime 13.3 LTS e acima.

Este artigo descreve como usar Databricks utilidades com Databricks Connect para Python. Databricks Connect permite que o senhor conecte os populares IDEs, servidores de notebook e aplicativos personalizados ao clustering Databricks. Consulte O que é o Databricks Connect? Para obter a versão Scala deste artigo, consulte Databricks utilidades com Databricks Connect para Scala.

nota

Antes de começar a usar o Databricks Connect, o senhor deve configurar o cliente Databricks Connect.

O senhor usa Databricks Connect para acessar Databricks utilidades da seguinte forma:

  • Use a variável dbutils da classe WorkspaceClient para acessar Databricks utilidades. A classe WorkspaceClient pertence ao Databricks SDK for Python e está incluída no Databricks Connect.
  • Use dbutils.fs para acessar o site Databricks utilidades fs utilidades.
  • Use dbutils.secrets para acessar o site Databricks utilidades secrets utilidades.
  • Nenhuma funcionalidade de Databricks utilidades além das utilidades anteriores está disponível por meio de dbutils.
dica

O senhor também pode usar o Databricks SDK incluído para Python para acessar qualquer Databricks REST API disponível, não apenas o Databricks utilidades APIs anterior. Veja databricks-sdk no PyPI.

Para inicializar WorkspaceClient, o senhor deve fornecer informações suficientes para autenticar um Databricks SDK com o workspace. Por exemplo, você pode:

  • Codifique o URL workspace e seus tokens de acesso diretamente no código e, em seguida, inicialize WorkspaceClient da seguinte forma. Embora essa opção seja compatível, o site Databricks não a recomenda, pois pode expor informações confidenciais, como o acesso tokens, se o seu código for verificado no controle de versão ou compartilhado de outra forma:

    Python
    from databricks.sdk import WorkspaceClient

    w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}",
    token = retrieve_token())
  • Crie ou especifique um perfil de configuração que contenha os campos host e token e inicialize o WorkspaceClient da seguinte forma:

    Python
    from databricks.sdk import WorkspaceClient

    w = WorkspaceClient(profile = "<profile-name>")
  • Defina a variável de ambiente DATABRICKS_HOST e DATABRICKS_TOKEN da mesma forma que o senhor as definiu para Databricks Connect e, em seguida, inicialize WorkspaceClient da seguinte forma:

    Python
    from databricks.sdk import WorkspaceClient

    w = WorkspaceClient()

O Databricks SDK para Python não reconhece a variável de ambiente SPARK_REMOTE para o Databricks Connect.

Para obter opções adicionais de autenticação Databricks para o Databricks SDK para Python, bem como para saber como inicializar AccountClient nos SDKs Databricks para acessar Databricks REST APIs disponíveis no nível account em vez de no nível workspace, consulte databricks-sdk em PyPI.

O exemplo a seguir mostra como usar o Databricks SDK para Python para automatizar as utilidades do Databricks. Este exemplo cria um arquivo chamado zzz_hello.txt no caminho de um volume Unity Catalog dentro do workspace, lê os dados do arquivo e, em seguida, exclui o arquivo. Este exemplo pressupõe que as variáveis de ambiente DATABRICKS_HOST e DATABRICKS_TOKEN já tenham sido definidas:

Python
from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
file = file_path,
contents = file_data,
overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Consulte também Interação com dbutils na documentação do Databricks SDK para Python.