Desenvolver código em notebooks Databricks
Esta página descreve como desenvolver código no Databricks Notebook, incluindo preenchimento automático, formatação automática para Python e SQL, combinação de Python e SQL em um Notebook e acompanhamento da versão Notebook história.
Para obter mais detalhes sobre funcionalidades avançadas disponíveis no editor, como autocompletar, seleção de variáveis, suporte a múltiplos cursores e comparações lado a lado, consulte Usar o bloco de anotações e o editor de arquivos Databricks.
Quando o senhor usa o site Notebook ou o editor de arquivos, o Databricks Assistant está disponível para ajudá-lo a gerar, explicar e depurar o código. Consulte Usar o Databricks Assistant para obter mais informações.
Databricks O Notebook também inclui um depurador interativo integrado para o Python Notebook. Consulte Caderno de depuração.
Obtenha ajuda de codificação do Databricks Assistant
O Databricks Assistant é um assistente de IA com reconhecimento de contexto com o qual o senhor pode interagir usando uma interface de conversação, tornando-o mais produtivo dentro da Databricks. O senhor pode descrever sua tarefa em inglês e deixar que o assistente gere código Python ou consultas SQL, explique códigos complexos e corrija erros automaticamente. O assistente usa os metadados do Unity Catalog para entender suas tabelas, colunas, descrições e dados populares ativos em sua empresa para fornecer respostas personalizadas.
O Databricks Assistant pode ajudar o senhor com as seguintes tarefas:
Gerar código.
Depurar código, inclusive identificando e sugerindo correções para erros.
Transformar e otimizar o código.
Explicar o código.
Ajudar o senhor a encontrar informações relevantes na documentação da Databricks.
Para obter informações sobre como usar o Databricks Assistant para ajudá-lo a codificar com mais eficiência, consulte Usar o Databricks Assistant. Para obter informações gerais sobre o Databricks Assistant, consulte Recurso alimentado pelo DatabricksIQ.
Acesse o notebook para edição
Para abrir um notebook, use a função Search do workspace ou use o navegador do workspace para navegar até o notebook e clique no nome ou ícone do notebook.
Navegue pelos dados
Use o schema browser para explorar os objetos Unity Catalog disponíveis para o site Notebook. Clique em no lado esquerdo do site Notebook para abrir o navegador de esquemas.
O botão For you (Para o senhor ) exibe apenas os objetos que o senhor usou na sessão atual ou que marcou anteriormente como Favorito.
À medida que o texto é digitado na caixa Filter, a exibição muda para mostrar apenas os objetos que contêm o texto digitado. São exibidos apenas os objetos que estão abertos no momento ou que foram abertos na sessão atual. A caixa Filtro não faz uma pesquisa completa dos catálogos, esquemas, tabelas e volumes disponíveis para o site Notebook.
Para abrir o menu kebab, passe o cursor sobre o nome do objeto, conforme mostrado:
Se o objeto for uma tabela, o senhor pode fazer o seguinte:
Crie automaticamente e execute uma célula para exibir uma prévia dos dados na tabela. Selecione Visualizar em uma nova célula no menu kebab da tabela.
view um catálogo, esquema ou tabela no Catalog Explorer. Selecione Open in Catalog Explorer (Abrir no Catalog Explorer ) no menu kebab. Um novo site tab é aberto mostrando o objeto selecionado.
Obtém o caminho para um catálogo, esquema ou tabela. Selecione Copy ... path (Copiar ... caminho ) no menu kebab do objeto.
Adicionar uma tabela aos Favoritos. Selecione Add to favorites (Adicionar aos favoritos ) no menu de kebab da mesa.
Se o objeto for um catálogo, esquema ou volume, o senhor poderá copiar o caminho do objeto ou abri-lo no Catalog Explorer.
Para inserir um nome de tabela ou coluna diretamente em uma célula:
Clique com o cursor na célula no local em que deseja inserir o nome.
Mova o cursor sobre o nome da tabela ou da coluna no navegador de esquemas.
Clique na seta dupla que aparece à direita do nome do objeto.
Atalhos de teclado
Para exibir atalhos de teclado, selecione Ajuda > Atalhos de teclado. Os atalhos de teclado disponíveis dependem de se o cursor está em uma célula de código (modo de edição) ou não (modo de comando).
paleta de comando
O senhor pode executar ações rapidamente no Notebook usando a paleta de comandos. Para abrir um painel de ações do Notebook, clique em no canto inferior direito do site workspace ou use o atalho Cmd + Shift + P no MacOS ou Ctrl + Shift + P no Windows.
Localizar e substituir texto
Para localizar e substituir texto em um notebook, selecione Edit > Find and Replace. A partida atual é destacada em laranja e todas as outras partidas são destacadas em amarelo.
Para substituir a correspondência atual, clique em Substituir. Para substituir todas as correspondências no notebook, clique em Substituir Tudo.
Para alternar entre correspondências, clique nos botões Anterior e Avançar. Você também pode pressionar shift+enter e enter para ir para as partidas anteriores e seguintes, respectivamente.
Para fechar a ferramenta localizar e substituir, clique em ou pressione esc.
execução de células selecionadas
Você pode executar uma única célula ou uma coleção de células. Para selecionar uma única célula, clique em qualquer lugar da célula. Para selecionar várias células, mantenha pressionada a key Command
no MacOS ou a key Ctrl
no Windows e clique na célula fora da área de texto, conforme mostrado na captura de tela.
Para executar o comando selecionado O comportamento desse comando depende do site cluster ao qual o Notebook está conectado.
Em clusters que executam o Databricks Runtime 13.3 LTS ou abaixo, as células selecionadas são executadas individualmente. Se ocorrer um erro em uma célula, a execução continua nas células subsequentes.
Em clusters que executam o Databricks Runtime 14.0 ou acima, ou em um SQL warehouse, as células selecionadas são executadas como lotes. Qualquer erro interrompe a execução e você não pode cancelar a execução de células individuais. Você pode usar o botão Interromper para interromper a execução de todas as células.
Modularize seu código
Visualização
Esse recurso está em visualização pública.
Com o Databricks Runtime 11.3 LTS e o acima, o senhor pode criar e gerenciar arquivos de código-fonte no Databricks workspace e, em seguida, importar esses arquivos para o Notebook, conforme necessário.
Para obter mais informações sobre como trabalhar com arquivos de código fonte, consulte Compartilhar código entre cadernos de dados e Trabalhar com módulos Python e R.
Executar texto selecionado
Você pode destacar código ou instruções SQL em uma célula do notebook e executar somente essa seleção. Isso é útil quando você deseja iterar rapidamente códigos e consultas.
Destaque as linhas que você deseja executar.
Selecione Executar > Executar o texto selecionado ou use o atalho de teclado
Ctrl
+Shift
+Enter
. Se nenhum texto estiver destacado, Executar texto selecionado executa a linha atual.
Se você estiver usando idiomas mistos em uma célula, deverá incluir a linha %<language>
na seleção.
Executar o texto selecionado também executa o código recolhido, se houver algum na seleção destacada.
Comandos de célula especiais como %run
, %pip
e %sh
são suportados.
Não é possível usar Executar texto selecionado em células que tenham várias guias de saída (ou seja, células nas quais você definiu um perfil de dados ou visualização).
Formatar células de código
O Databricks fornece ferramentas que permitem formatar código Python e SQL em células de bloco de anotações de forma rápida e fácil. Essas ferramentas reduzem o esforço necessário para manter o formato do seu código e auxiliam na aplicação das mesmas normas de codificação em seus notebooks.
Python black formatter biblioteca
Visualização
Esse recurso está em visualização pública.
Databricks suporta a formatação de código Python usando preto dentro do Notebook. O Notebook deve ser conectado a um cluster com black
e tokenize-rt
pacote Python instalados.
Em Databricks Runtime 11.3 LTS e acima, Databricks pré-instala black
e tokenize-rt
. O senhor pode usar o formatador diretamente sem precisar instalar essas bibliotecas.
Em Databricks Runtime 10.4 LTS e abaixo, o senhor deve instalar black==22.3.0
e tokenize-rt==4.2.1
de PyPI em seu Notebook ou cluster para usar o formatador Python. O senhor pode executar o seguinte comando em seu Notebook:
%pip install black==22.3.0 tokenize-rt==4.2.1
ou instalar a biblioteca em seu cluster.
Para obter mais detalhes sobre a instalação de bibliotecas, consulte gerenciamento de ambiente Python.
Para arquivos e Notebook nas pastas Git do Databricks, o senhor pode configurar o formatador Python com base no arquivo pyproject.toml
. Para usar esse recurso, crie um arquivo pyproject.toml
no diretório raiz da pasta Git e configure-o de acordo com o formato de configuração do Black. Edite o [tool.black]. no arquivo. A configuração é aplicada quando o senhor formata qualquer arquivo e Notebook nessa pasta Git.
Como formatar células Python e SQL
O senhor deve ter permissão CAN EDIT no site Notebook para formatar o código.
A Databricks usa a biblioteca Gethue/sql-formatter para formatar SQL e o formatador de código preto para Python.
Você pode ativar o formatador das seguintes maneiras:
Formatar uma única célula
Atalho de teclado: pressione Cmd+Shift+F.
Menu de contexto do comando:
Formatar célula SQL: Selecione Formatar SQL no menu dropdown de contexto de comando de uma célula SQL. Este item de menu é visível apenas nas células do SQL Notebook ou naquelas com
%sql
language magic.Formatar célula Python: selecione Formatar Python no menu dropdown de contexto de comando de uma célula Python. Este item de menu é visível apenas nas células do Python Notebook ou naquelas com
%python
language magic.
Menu Editar do Notebook: selecione uma célula Python ou SQL e selecione Editar > Formatar célula(s).
Formatar múltiplas células
Selecione várias células e selecione Editar > Formatar célula(s). Se você selecionar células de mais de um idioma, somente as células SQL e Python serão formatadas. Isso inclui aqueles que usam
%sql
e%python
.Formate todas as células Python e SQL no notebook
Selecione Editar > Formatar notebook. Se o seu notebook tiver mais de uma linguagem, somente as células SQL e Python serão formatadas. Isto inclui aqueles que utilizam
%sql
e%python
.
Limitações da formatação de código
A Black aplica os padrões PEP 8 para a indentação de 4 espaços A indentação não é configurável.
Não há suporte para a formatação de strings Python incorporadas em um UDF SQL. Da mesma forma, a formatação de strings do SQL dentro de uma UDF Python não tem suporte.
Histórico de versões
Os notebooks Databricks mantêm um histórico das versões do notebook, permitindo que você visualize e restaure instantâneos anteriores do notebook. Você pode realizar as seguintes ações nas versões: adicionar comentários, restaurar e excluir versões e limpar o histórico de versões.
Você também pode sincronizar seu trabalho no Databricks com um repositório Git remoto.
Para acessar as versões Notebook , clique em na barra lateral direita. A versão Notebook história aparece. Você também pode selecionar Arquivo > Versão história.
Adicionar um comentário
Para adicionar um comentário à versão mais recente:
Clique na versão.
Clique em Salvar agora.
Na caixa de diálogo Salvar versão Notebook , insira um comentário.
Clique em Salvar. A versão do notebook é salva com o comentário inserido.
Restaurar uma versão
Para restaurar uma versão:
Clique na versão.
Clique em Restaurar esta versão.
Clique em Confirmar. A versão selecionada torna-se a versão mais recente do bloco de anotações.
Idiomas do código em notebooks
Definir idioma padrão
O idioma padrão do notebook aparece próximo do nome do notebook.
Para alterar o idioma padrão, clique no botão "Idioma" e selecione o novo idioma no dropdown. Para garantir que os comandos existentes continuem funcionando, os comandos do idioma padrão anterior são automaticamente prefixados com um comando mágico de idioma.
Misture idiomas
Por padrão, as células utilizam o idioma padrão do notebook. Você pode substituir o idioma padrão em uma célula clicando no botão "Idioma" e selecionando um idioma no dropdown.
De forma alternativa, você pode utilizar o comando mágico de idioma %<language>
no início de uma célula. Os seguintes comandos mágicos estão disponíveis: %python
, %r
, %scala
e %sql
.
Observação
Quando o senhor invoca um comando mágico de linguagem, o comando é enviado para o REPL no contexto de execução do Notebook. As variáveis definidas em um idioma (e, portanto, no REPL desse idioma) não estão disponíveis no REPL de outro idioma. Os REPLs podem compartilhar o estado somente por meio de recursos externos, como arquivos em DBFS ou objetos no armazenamento de objetos.
Os notebooks também fornecem suporte para alguns comandos mágicos auxiliares:
%sh
: permite executar código shell em seu notebook. Para falhar na célula se o comando shell tiver um status de saída diferente de zero, adicione a opção-e
. Este comando é executado somente no driver Apache Spark e não nos workers. Para executar um comando shell em todos os nós, use um script de inicialização.%fs
: permite que você use o comando do sistema de arquivosdbutils
. Por exemplo, para executar o comandodbutils.fs.ls
para listar arquivos, você pode especificar%fs ls
. Para obter mais informações, consulte Trabalhar com arquivos no Databricks.%md
: Permite incluir vários tipos de documentação, incluindo texto, imagens e fórmulas e equações matemáticas. Veja a próxima seção.
Destaque de sintaxe do SQL e preenchimento automático em comandos Python
O realce de sintaxe e o preenchimento automático de SQL estão disponíveis quando você usa SQL dentro de um comando Python, como em um comando spark.sql
.
Explore os resultados de células SQL em notebooks Python usando Python
É possível que você queira carregar dados usando SQL e explorá-los com Python.Em um notebook Python Databricks, os resultados da tabela de uma célula de idioma SQL são disponibilizados automaticamente como um DataFrame do Python atribuído à variável _sqldf
.
Em Databricks Runtime 13.3 LTS e acima, o senhor também pode acessar o resultado de DataFrame usando o sistema de cache de saída do IPython. O contador do prompt aparece na mensagem de saída exibida na parte inferior dos resultados da célula. No exemplo mostrado, o senhor faria referência ao resultado como Out[2]
.
Observação
A variável
_sqldf
pode ser redesignada sempre que uma célula%sql
é executada. Para evitar perder a referência ao resultado do DataFrame, faça a atribuição a um novo nome de variável antes de executar a próxima célula%sql
:new_dataframe_name = _sqldf
Se a consulta usar um widget para parametrização, os resultados não estarão disponíveis como um DataFrame em Python.
Se a consulta utilizar as palavras-chave
CACHE TABLE
ouUNCACHE TABLE
, os resultados não estarão disponíveis como um DataFrame em Python.
A captura de tela mostra um exemplo:
Executar células SQL em paralelo
Enquanto um comando estiver em execução e o notebook estiver conectado a um cluster interativo, você pode executar uma célula SQL simultaneamente com o comando atual. A célula SQL é executada em uma nova sessão paralela.
Para executar uma célula em paralelo:
Clique em Run now (Executar agora). A célula é executada imediatamente.
Como a célula é executada em uma nova sessão, view temporária, UDFs e o DataFrame implícito do Python (_sqldf
) não são suportados para células executadas em paralelo. Além disso, os nomes default do catálogo e do banco de dados são usados durante a execução paralela. Se o seu código se referir a uma tabela em um catálogo ou banco de dados diferente, você deverá especificar o nome da tabela usando o namespace de três níveis (catalog
.schema
.table
).
Executar células SQL em SQL warehouse
O senhor pode executar SQL comando em um Databricks Notebook em um SQL warehouse, um tipo de compute que é otimizado para SQL analítica. Consulte Usar um notebook com um SQL warehouse.
Exibir imagens
O Databricks suporta a exibição de imagens em células Markdown. O senhor pode exibir imagens armazenadas no espaço de trabalho, nos Volumes ou no FileStore.
Exibir imagens armazenadas no Workspace
O senhor pode usar caminhos absolutos ou relativos para exibir imagens armazenadas no espaço de trabalho. Para exibir uma imagem armazenada no espaço de trabalho, use a seguinte sintaxe:
%md
![my_test_image](/Workspace/absolute/path/to/image.png)
![my_test_image](./relative/path/to/image.png)
Exibir imagens armazenadas em Volumes
O senhor pode usar caminhos absolutos para exibir imagens armazenadas em Volumes. Para exibir uma imagem armazenada em Volumes, use a seguinte sintaxe:
%md
![my_test_image](/Volumes/absolute/path/to/image.png)
Exibir imagens armazenadas no FileStore
Para exibir imagens armazenadas no FileStore, use a seguinte sintaxe:
%md
![my_test_image](files/image.png)
Por exemplo, suponha que você tenha o arquivo de imagem do logotipo Databricks no FileStore:
dbfs ls dbfs:/FileStore/
databricks-logo-mobile.png
Quando você inclui o seguinte código em uma célula Markdown:
a imagem é renderizada na célula:
Arrastar e soltar imagens
O senhor pode arrastar e soltar imagens do seu sistema de arquivos local para as células Markdown. A imagem é carregada no diretório atual do espaço de trabalho e exibida na célula.
Exibir equações matemáticas
Os notebooks tem suporte KaTeX para exibir fórmulas e equações matemáticas. Por exemplo,
%md
\\(c = \\pm\\sqrt{a^2 + b^2} \\)
\\(A{_i}{_j}=B{_i}{_j}\\)
$$c = \\pm\\sqrt{a^2 + b^2}$$
\\[A{_i}{_j}=B{_i}{_j}\\]
é exibido como:
e
%md
\\( f(\beta)= -Y_t^T X_t \beta + \sum log( 1+{e}^{X_t\bullet\beta}) + \frac{1}{2}\delta^t S_t^{-1}\delta\\)
where \\(\delta=(\beta - \mu_{t-1})\\)
é exibido como:
Incluir HTML
Você pode incluir HTML em um notebook utilizando a função displayHTML
. Consulte HTML, D3 e SVG em notebooks para obter um exemplo de como fazer isso.
Observação
O iframe do displayHTML
é proveniente do domínio databricksusercontent.com
e o sandbox do iframe inclui o atributo allow-same-origin
. databricksusercontent.com
tem de estar acessível a partir do seu navegador. Se ele estiver atualmente bloqueado pela sua rede corporativa, ele deverá ser adicionado a uma lista de permissões.
Link para outros notebooks
Você pode vincular a outros notebooks ou pastas nas células do Markdown usando caminhos relativos. Especifique o atributo href
de uma tag de âncora como o caminho relativo, começando com $
e, em seguida, siga o mesmo padrão dos sistemas de arquivos Unix:
%md
<a href="$./myNotebook">Link to notebook in same folder as current notebook</a>
<a href="$../myFolder">Link to folder in parent folder of current notebook</a>
<a href="$./myFolder2/myNotebook2">Link to nested notebook</a>