Conecte-se a um RStudio Server hospedado pela Databricks
O servidor RStudio hospedado Databricksestá obsoleto e só está disponível nas versões 15.4 e anteriores Databricks Runtime . Para outras opções, consulte Alternativas ao servidor RStudio hospedado.
Use o navegador da Web para fazer login no site Databricks workspace e, em seguida, conecte-se a um site Databricks compute que tenha o servidorRStudio instalado, dentro desse site workspace.
Para o RStudio Server hospedado, você pode usar a edição código aberto (OS) ou a edição RStudio Workbench (anteriormente RStudio Server Pro) no Databricks. Se você deseja usar o RStudio Workbench (RStudio Server Pro), você deve transferir sua licença existente do RStudio Workbench (RStudio Server Pro) para o Databricks. Consulte RStudio Workbench (anteriormente RStudio Server Pro).
Databricks recomenda que o senhor use Databricks Runtime para Machine Learning (Databricks Runtime ML) em Databricks compute com RStudio Server para reduzir o tempo de compute começar. Databricks Runtime ML inclui uma versão não modificada do pacote RStudio Server código aberto Edition. O código-fonte desse pacote pode ser encontrado no GitHub. A tabela a seguir lista a versão do RStudio Server código aberto Edition pré-instalado nas versões Databricks Runtime ML .
Databricks Runtime para ML Versão | Versão do RStudio Server |
|---|---|
Databricks Runtime 9.1 LTS ML e 10.4 LTS ML | 1.4 |
Servidor RStudio de código aberto (SO)
RStudio Server de código aberto vem pré-instalado em clusters Databricks que utilizam Databricks Runtime for Machine Learning (Databricks Runtime ML).
Requisitos
-
O cluster deve ser um clusters todo-propósito.
-
Você precisa ter a permissão CAN ATTACH TO para esse cluster. O administrador do cluster pode conceder essa permissão a você. Consulte as permissões de computação.
-
O cluster não deve ter controle de acesso da tabela, encerramento automático ou passagem de credenciais ativados.
-
O cluster não deve usar o modo de acesso padrão .
-
O cluster não deve ter a configuração Spark
spark.databricks.pyspark.enableProcessIsolationdefinida comotrue. -
Você precisa ter uma licença flutuante do RStudio Server Pro para usar a edição Pro.
Embora o cluster possa usar um modo de acesso que suporte o Unity Catalog, você não pode usar o RStudio Server desse cluster para acessar dados no Unity Catalog.
Abra o servidor RStudio
Para abrir o sistema operacional RStudio Server em um cluster Databricks, faça o seguinte:
-
Abra a página de detalhes do cluster.
-
Inicie o cluster e, em seguida, clique na tab Aplicativos :

-
Na tab Aplicativos , clique no botão Configurar o RStudio . Isso gera uma senha de uso único para você. Clique no link "Mostrar" para exibi-lo e copie a senha.
-
Clique no link Abrir RStudio para abrir a interface do usuário em uma nova tab. Insira seu nome de usuário e senha no formulário de login e entre.
-
A partir da interface do usuário RStudio , você pode importar o pacote
SparkRe configurar uma sessãoSparkRpara executar o trabalho Spark em seu cluster.Rlibrary(SparkR)
sparkR.session()
# Query the first two rows of a table named "diamonds" in a
# schema (database) named "default" and display the query result.
df <- SparkR::sql("SELECT * FROM default.diamonds LIMIT 2")
showDF(df)
-
Você também pode conectar o pacote Sparklyr e configurar uma conexão Spark .
Rlibrary(sparklyr)
sc <- spark_connect(method = "databricks")
# Query a table named "diamonds" and display the first two rows.
df <- spark_read_table(sc = sc, name = "diamonds")
print(x = df, n = 2)
Integração do servidor RStudio
Ao usar RStudio Server no Databricks, o daemon RStudio Server é executado no nó principal de um cluster Databricks . A interface web do RStudio é acessada por meio de um proxy do aplicativo web Databricks, o que significa que você não precisa fazer nenhuma alteração na configuração de rede do seu cluster. Este diagrama demonstra a arquitetura do componente de integração do RStudio.

O Databricks atua como proxy para o serviço web do RStudio a partir da porta 8787 no driver Spark do cluster. Este proxy web destina-se ao uso exclusivo com o RStudio. Ao executar outros serviços web na porta 8787, você pode expor seus usuários a possíveis vulnerabilidades de segurança. A Databricks não se responsabiliza por quaisquer problemas resultantes da instalação de software não suportado em um cluster.
RStudio Workbench (anteriormente RStudio Server Pro)
Esta seção mostra como configurar e começar a usar o RStudio Workbench (anteriormente RStudio Server Pro) em um cluster Databricks. Dependendo da sua licença, o RStudio Workbench pode incluir o RStudio Server Pro.
Configurar o servidor de licenças do RStudio
Para usar o RStudio Workbench no Databricks, você precisa converter sua licença Pro em uma licença flutuante. Para obter ajuda, entre em contato com help@rstudio.com. Após a conversão da sua licença, você deverá configurar um servidor de licenças para o RStudio Workbench.
Para configurar um servidor de licenças:
- Inicie uma pequena instância na rede do seu provedor cloud ; o daemon do servidor de licenças é leve.
- Baixe e instale a versão correspondente do RStudio License Server em sua instância e inicie o serviço. Para obter instruções detalhadas, consulte o guia de administraçãoRStudio Workbench.
- Verifique se a porta do servidor de licenças está aberta para as instâncias do Databricks.
Instalar o RStudio Workbench
Para configurar RStudio Workbench em um cluster Databricks , você deve criar um init script para instalar o pacote binário RStudio Workbench e configurá-lo para usar seu servidor de licenças para concessão de licenças.
Se você planeja instalar RStudio Workbench em uma versão Databricks Runtime que já inclui o pacote RStudio Server Código Aberto Edition, primeiro você precisa desinstalar esse pacote para que a instalação seja bem-sucedida.
O seguinte é um exemplo de arquivo .sh que você pode armazenar como um init script em um local como seu diretório inicial como um arquivo workspace , em um volume Unity Catalog ou no armazenamento de objetos. Para obter mais informações, consulte script de inicialização com escopo de cluster. O script também realiza configurações de autenticação adicionais que simplificam a integração com o Databricks.
Scripts de inicialização com escopo de cluster no DBFS chegaram ao fim de sua vida útil. O armazenamento do script de inicialização no DBFS existe em alguns espaços de trabalho para dar suporte a cargas de trabalho legadas, mas não é recomendado. Todos os scripts de inicialização armazenados no DBFS devem ser migrados. Para obter instruções de migração, consulte Migrar script de inicialização do DBFS.
#!/bin/bash
set -euxo pipefail
if [[ $DB_IS_DRIVER = "TRUE" ]]; then
sudo apt-get update
sudo dpkg --purge rstudio-server # in case open source version is installed.
sudo apt-get install -y gdebi-core alien
## Installing RStudio Workbench
cd /tmp
# You can find new releases at https://rstudio.com/products/rstudio/download-commercial/debian-ubuntu/.
wget https://download2.rstudio.org/server/bionic/amd64/rstudio-workbench-2022.02.1-461.pro1-amd64.deb -O rstudio-workbench.deb
sudo gdebi -n rstudio-workbench.deb
## Configuring authentication
sudo echo 'auth-proxy=1' >> /etc/rstudio/rserver.conf
sudo echo 'auth-proxy-user-header-rewrite=^(.*)$ $1' >> /etc/rstudio/rserver.conf
sudo echo 'auth-proxy-sign-in-url=<domain>/login.html' >> /etc/rstudio/rserver.conf
sudo echo 'admin-enabled=1' >> /etc/rstudio/rserver.conf
sudo echo 'export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin' >> /etc/rstudio/rsession-profile
# Enabling floating license
sudo echo 'server-license-type=remote' >> /etc/rstudio/rserver.conf
# Session configurations
sudo echo 'session-rprofile-on-resume-default=1' >> /etc/rstudio/rsession.conf
sudo echo 'allow-terminal-websockets=0' >> /etc/rstudio/rsession.conf
sudo rstudio-server license-manager license-server <license-server-url>
sudo rstudio-server restart || true
fi
- Substitua
<domain>pelo seu URL do Databricks e<license-server-url>pelo URL do seu servidor de licença flutuante. - Armazene este arquivo
.shcomo um init script em um local como seu diretório inicial como um arquivo workspace , em um volume Unity Catalog ou no armazenamento de objetos. Para obter mais informações, consulte script de inicialização com escopo de cluster. - Antes de iniciar um cluster, adicione este arquivo
.shcomo um init script do local associado. Para obter instruções, consulte o script de inicialização com escopo de cluster. - Inicie o cluster.
Abra o ambiente de trabalho do RStudio
-
Abra a página de detalhes do cluster.
-
Inicie o cluster e clique na tab Aplicativos :

-
Na tab Aplicativos , clique no botão Configurar o RStudio .
-
Você não precisa da senha de uso único. Clique no link Abrir interface do RStudio e uma sessão autenticada do RStudio Pro será aberta para você.
-
A partir da interface do usuário RStudio , você pode anexar o pacote
SparkRe configurar uma sessãoSparkRpara executar o trabalho Spark em seu cluster.Rlibrary(SparkR)
sparkR.session()
# Query the first two rows of a table named "diamonds" in a
# schema (database) named "default" and display the query result.
df <- SparkR::sql("SELECT * FROM default.diamonds LIMIT 2")
showDF(df)
-
Você também pode conectar o pacote Sparklyr e configurar uma conexão Spark .
Rlibrary(sparklyr)
sc <- spark_connect(method = "databricks")
# Query a table named "diamonds" and display the first two rows.
df <- spark_read_table(sc = sc, name = "diamonds")
print(x = df, n = 2)
Perguntas frequentes do servidor RStudio
Qual a diferença entre RStudio Server Code Aberto Edition e RStudio Workbench?
RStudio Workbench oferece suporte a uma ampla gama de recursos corporativos que não estão disponíveis na edição de código aberto. Você pode ver a comparação de recursos no site doRStudio.
Além disso, RStudio Server Código Aberto Edition é distribuído sob a Licença Pública Geral Affero GNU (AGPL), enquanto a versão Pro vem com uma licença comercial para organizações que não podem usar software AGPL.
Por fim, RStudio Workbench vem com suporte profissional e empresarial da RStudio, PBC, enquanto RStudio Server Code Open Edition não possui suporte.
Posso usar minha licença do RStudio Workbench (RStudio Server Pro) no Databricks?
Sim, se você já possui uma licença Pro ou Enterprise do RStudio Server, pode usar essa licença no Databricks. Consulte o guia RStudio Workbench (anteriormente RStudio Server Pro) para aprender como configurar o RStudio Workbench no Databricks.
Onde é feita a execução RStudio Server? Preciso gerenciar algum serviço/servidor adicional?
Como você pode ver no diagrama em IntegraçãoRStudio Server, a execução do daemon RStudio Server ocorre no nó driver (mestre) do seu cluster Databricks . Com o RStudio Server código aberto Edition, você não precisa executar nenhum servidor ou serviço adicional. Porém, para RStudio Workbench, você deve gerenciar uma instância separada da execução RStudio License Server.
Posso usar o RStudio Server em um cluster padrão?
Esta página descreve a interface de usuário dos clusters legados. Para obter informações sobre a nova interface de usuário clusters , incluindo alterações na terminologia dos modos de acesso cluster , consulte a referência de configuração de computação. Para uma comparação entre os tipos de cluster novos e legados, consulte Alterações na interface do usuário de clusters e modos de acesso ao cluster.
Sim, você pode.
Posso usar o RStudio Server em um cluster com encerramento automático?
Não, você não pode usar o RStudio quando o encerramento automático está ativado. O encerramento automático pode apagar scripts e dados de usuário não salvos dentro de uma sessão do RStudio. Para proteger os usuários contra esse cenário de perda de dados não intencional, RStudio é desativado nesses clusters por default.
Para clientes que precisam limpar os recursos cluster quando não estiverem em uso, Databricks recomenda o uso APIscluster para limpar clusters RStudio com base em um programa.
Como devo persistir meu trabalho no RStudio?
A Databricks recomenda que você armazene seu trabalho usando um sistema de controle de versão do RStudio. RStudio oferece suporte a vários sistemas de controle de versão e permite que você faça check-in e gerencie seus projetos. Se você não persistir seu código usando uma das seguintes opções, corre o risco de perder seu trabalho caso um administrador workspace reinicie ou encerre o cluster.
Uma opção é salvar seus arquivos (código ou dados) no workspace ou em um volume. Por exemplo, se você salvar um arquivo em /Workspace/ , os arquivos não serão excluídos quando seu cluster for encerrado ou reiniciado.
Outra opção é salvar o R Notebook em seu sistema de arquivos local exportando-o como Rmarkdown, e depois importar o arquivo para a instância RStudio . Os blogs compartilhamento R Notebook usando rmarkdown descrevem os passos com mais detalhes.
Outra opção é montar um volume do Amazon Elastic File System (Amazon EFS) no seu cluster, para que, quando o cluster for desligado, você não perca seu trabalho. Quando o cluster é reiniciado, o Databricks remonta o volume do Amazon EFS e você pode continuar de onde parou. Para montar um volume Amazon EFS existente em um cluster, chame as operações create cluster (POST /api/2.0/clusters/create) ou edit cluster (POST /api/2.0/clusters/edit) na API clusters 2.0, especificando as informações de montagem do volume Amazon EFS na matriz cluster_mount_infos das operações.
Certifique-se de que o cluster que você criar ou usar não tenha Unity Catalog, o encerramento automático ou o dimensionamento automático ativados. Certifique-se também de que o cluster tenha permissão de escrita para o volume montado, por exemplo, executando o comando chmod a+w </path/to/volume> no cluster. Você pode executar este comando em um cluster existente através do terminal web do cluster, ou em um novo cluster usando um init script que você especifica na matriz init_scripts das operações anteriores.
Se você não possui um volume do Amazon EFS, pode criar um. Primeiro, entre em contato com o administrador Databricks e obtenha o ID VPC , o ID da sub-rede pública e o ID do grupo de segurança do seu workspace Databricks . Em seguida, utilize essas informações, juntamente com o Console de Gerenciamento AWS , para criar um sistema de arquivos com configurações personalizadas usando o console Amazon EFS. Na última etapa deste procedimento, clique em Anexar e copie o nome DNS e as opções de montagem, que você especificou na matriz cluster_mount_infos anterior.
Como inicio uma sessão SparkR ?
SparkR no Databricks foi descontinuado no Databricks Runtime 16.0 e versões superiores.
SparkR Está incluído no Databricks Runtime, mas você precisa carregá-lo no RStudio. execute o seguinte código dentro RStudio para inicializar uma sessão SparkR .
library(SparkR)
sparkR.session()
Se houver um erro ao importar o pacote SparkR , execute .libPaths() e verifique se /home/ubuntu/databricks/spark/R/lib está incluído no resultado.
Se não estiver incluído, verifique o conteúdo de /usr/lib/R/etc/Rprofile.site. Liste /home/ubuntu/databricks/spark/R/lib/SparkR no driver para verificar se o pacote SparkR está instalado.
Como inicio uma sessão sparklyr ?
O pacote sparklyr deve ser instalado no cluster. Utilize um dos seguintes métodos para instalar o pacote sparklyr :
- Como uma biblioteca Databricks
install.packages()Comando- Interface de gerenciamento de pacotes RStudio
library(sparklyr)
sc <- spark_connect(method = “databricks”)
Como RStudio se integra ao Databricks R Notebook?
Você pode transferir seu trabalho entre o Notebook e RStudio por meio do controle de versão.
O que é o diretório de trabalho?
Ao iniciar um projeto no RStudio, você escolhe um diretório de trabalho. Por default este é o diretório inicial do contêiner do driver (mestre) onde RStudio Server está em execução. Você pode alterar este diretório se quiser.
Posso executar aplicativos Shiny a partir do RStudio em execução no Databricks?
Sim, você pode desenvolver e view aplicativos Shiny dentro do RStudio Server no Databricks.
Não consigo usar o terminal ou o Git dentro do RStudio no Databricks. Como posso resolver isso?
Certifique-se de ter desativado os websockets. Na versão de código aberto do RStudio Server, você pode fazer isso pela interface do usuário.

No RStudio Server Pro, você pode adicionar allow-terminal-websockets=0 a /etc/rstudio/rsession.conf para desativar os websockets para todos os usuários.
Não consigo encontrar a tab "Aplicativos" nos detalhes cluster .
Este recurso não está disponível para todos os clientes. Você deve estar no plano Premium ouacima.
Alternativas ao servidor RStudio hospedado
A Databricks continuará oferecendo suporte ao RStudio Server hospedado no Databricks runtimes 15.4 e abaixo até o fim do suporte. Por exemplo, o Databricks Runtime 15.4 LTS continuará a oferecer suporte ao RStudio Server hospedado até 19 de agosto de 2027.
Se precisar de mais tempo para migrar, o senhor pode continuar usando o RStudio Server hospedado até a data de fim de suporte do seu tempo de execução. A atualização para um tempo de execução LTS mais recente, como o 15.4, estenderá seu período de suporte.
Alternativa 1: Posit Workbench
Em parceria com a Databricks, o Posit PBC oferece uma integração nativa do Posit Workbench para a Databricks.
A integração permite que o senhor se conecte a Databricks compute a partir do RStudio Pro e inclui recursos como suporte para Unity Catalog e gerenciar Databricks OAuth credenciais.
Alternativa 2: RStudio Desktop
Conecte oRStudio Desktop a um Databricks compute recurso ou SQL warehouse de sua máquina de desenvolvimento local.
O senhor pode usar Databricks Connect através do Sparklyrou o driverDatabricks ODBC por meio do pacoteODBC R. Esse método também é compatível com o Unity Catalog.
Alternativa 3: Databricks Notebook
Use o R no Databricks Notebook para ter uma experiência de desenvolvimento interativa e integrada ao restante da plataforma Databricks.