Databricks russas com Databricks Connect para Python

Observação

Este artigo aborda o Databricks Connect para Databricks Runtime 13.0 e acima.

Este artigo descreve como usar o Databricks russas com o Databricks Connect for Python. O Databricks Connect permite conectar IDEs populares, servidores Notebook e aplicativos personalizados a clusters Databricks. Consulte O que é o Databricks Connect?. Para a versão Scala deste artigo, consulte Databricks russas com Databricks Connect for Scala.

Observação

Antes de começar a usar o Databricks Connect, você deve configurar o cliente Databricks Connect.

Você usa o Databricks Connect para acessar o Databricks russas da seguinte forma:

  • Use a variável dbutils da classe WorkspaceClient para acessar o Databricks russos. A classe WorkspaceClient pertence ao SDK do Databricks para Python e está incluída no Databricks Connect.

  • Use dbutils.fs para acessar o Databricks russas fs russas.

  • Use dbutils.secrets para acessar o Databricks russas secrets russas .

  • Nenhuma funcionalidade do Databricks russas além da russas anterior está disponível por meio de dbutils.

Dica

Você também pode usar o SDK do Databricks para Python incluído para acessar qualquer API REST do Databricks disponível, não apenas as APIs russas do Databricks anteriores. Consulte databricks-sdk no PyPI.

Para inicializar WorkspaceClient, você deve fornecer informações suficientes para autenticar um SDK do Databricks com o espaço de trabalho. Por exemplo, você pode:

  • Codifique o URL workspace e seu access token diretamente no seu código e, em seguida, inicialize WorkspaceClient da seguinte maneira. Embora esta opção seja suportada, a Databricks não a recomenda , pois pode expor informações sensíveis, como access token, se o seu código for verificado no controlo de versão ou partilhado de outra forma:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(host  = f"https://{retrieve_workspace_instance_name()}",
                        token = retrieve_token())
    
  • Crie ou especifique um perfil de configuração que contenha os campos host e token e, em seguida, inicialize WorkspaceClient da seguinte maneira:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(profile = "<profile-name>")
    
  • Defina a variável de ambiente DATABRICKS_HOST e DATABRICKS_TOKEN da mesma forma que você os definiu para o Databricks Connect e, em seguida, inicialize WorkspaceClient da seguinte maneira:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient()
    

O SDK do Databricks para Python não reconhece a variável de ambiente SPARK_REMOTE para o Databricks Connect.

Para obter opções adicionais de autenticação do Databricks para o SDK do Databricks para Python, bem como inicializar AccountClient nos SDKs do Databricks para acessar as APIs REST do Databricks disponíveis no nível account em vez de no nível do workspace , consulte databricks-sdk no PyPI.

O exemplo a seguir mostra como usar o SDK do Databricks para Python para automatizar o Databricks russias. Este exemplo cria um arquivo chamado zzz_hello.txt no caminho de um volume Unity Catalog dentro do workspace, lê os dados do arquivo e, em seguida, exclui o arquivo. Este exemplo assume que as variáveis de ambiente DATABRICKS_HOST e DATABRICKS_TOKEN já foram definidas:

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
  file      = file_path,
  contents  = file_data,
  overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Consulte também Interação com dbutils na documentação do SDK do Databricks para Python.