Pular para o conteúdo principal

O que é a CLI da Databricks?

nota

Essas informações se aplicam ao site Databricks CLI versões 0.205 e superiores. A CLI da Databricks está em visualização pública.

Databricks CLI O uso está sujeito à LicençaDatabricks e ao Aviso de PrivacidadeDatabricks, incluindo qualquer provisionamento de Dados de Uso.

A CLI (interface de linha de comando) da Databricks permite que o senhor interaja com a plataforma Databricks a partir do seu terminal local ou de scripts de automação. O senhor também pode executar Databricks CLI comando de dentro de um Databricks workspace usando o terminal da Web. Consulte execução shell comando em Databricks web terminal.

Para instalar e configurar a autenticação para a CLI da Databricks, consulte Instalar ou atualizar a CLI da Databricks e Autenticação para a CLI da Databricks.

dica

A fonte Databricks CLI está disponível publicamente no repositório databricks/CLI GitHub.

informações para usuários antigos Databricks CLI

  • O Databricks não tem planos de oferecer suporte ou realizar novos trabalhos em recursos para a CLI antiga do Databricks.
  • Para obter mais informações sobre o legado Databricks CLI, consulte Databricks CLI (legacy).
  • Para migrar de Databricks CLI versão 0.18 ou abaixo para Databricks CLI versão 0.205 ou acima, consulte Databricks CLI migration.

Como funciona a CLI da Databricks?

A CLI encapsula a API REST do Databricks, que fornece endpoints para modificar ou solicitar informações sobre a conta do Databricks e objetos de workspaces. Veja a referência da API REST do Databricks.

Por exemplo, para imprimir informações sobre um cluster individual em um workspace, execute a CLI da seguinte maneira:

Bash
databricks clusters get 1234-567890-a12bcde3

Com curl, a operação equivalente é a seguinte:

Bash
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--data '{ "cluster_id": "1234-567890-a12bcde3" }'

Exemplo: criar um trabalho no site Databricks

O exemplo a seguir utiliza a CLI para criar um job do Databricks. Esse job contém uma única tarefa de job. Esta tarefa executa o notebook do Databricks especificado. Esse notebook tem uma dependência com uma versão específica do pacote PyPI chamada wheel. Para executar essa tarefa, o job cria temporariamente um cluster de jobs que exporta uma variável de ambiente chamada PYSPARK_PYTHON. Após a execução do job, o cluster é encerrado.

Bash
databricks jobs create --json '{
"name": "My hello notebook job",
"tasks": [
{
"task_key": "my_hello_notebook_task",
"notebook_task": {
"notebook_path": "/Workspace/Users/someone@example.com/hello",
"source": "WORKSPACE"
},
"libraries": [
{
"pypi": {
"package": "wheel==0.41.2"
}
}
],
"new_cluster": {
"spark_version": "13.3.x-scala2.12",
"node_type_id": "i3.xlarge",
"num_workers": 1,
"spark_env_vars": {
"PYSPARK_PYTHON": "/databricks/python3/bin/python3"
}
}
}
]
}'

Próximas etapas