RStudio na Databricks
Você pode usar RStudio, um ambiente de desenvolvimento integrado (IDE) popular para R, para se conectar ao recurso compute Databricks dentro do espaço de trabalho Databricks a partir da sua máquina de desenvolvimento local.
Configurar o RStudio Desktop
Para configurar o RStudio Desktop em seu computador de desenvolvimento local:
- Faça o download e instale o R 3.3.0 ou superior.
- Faça o download e instale o RStudio Desktop.
- RStudio Desktop.
(Opcional) Para criar um projeto do RStudio:
- RStudio Desktop.
- Clique em Arquivo > Novo projeto .
- Selecione Novo diretório > Novo projeto .
- Escolha um novo diretório para o projeto e clique em Criar projeto .
Para criar um script R:
- Com o projeto aberto, clique em Arquivo > Novo Arquivo > R Script .
- Clique em Arquivo > Salvar como .
- Dê um nome ao arquivo e clique em Salvar .
Conecte-se ao Databricks
Para usar RStudio Desktop para se conectar a um cluster Databricks remoto ou a SQL warehouse a partir da sua máquina de desenvolvimento local, use uma conexão ODBC e chame as funções do pacote ODBC para R.
O senhor não pode usar pacotes como SparkR ou Sparklyr neste cenário do RStudio Desktop, a menos que o senhor também use o Databricks Connect.
Para se conectar ao clustering remoto Databricks ou SQL warehouse por meio de ODBC para R:
-
Obtenha os valores hostnamedo servidor , porta e caminho HTTP para seu cluster remoto ou SQL warehouse Para um cluster, esses valores estão na tab JDBC/ODBC das opções avançadas . Para um SQL warehouse, esses valores estão na tab Detalhes da conexão .
-
Obtenha um Databricks tokens de acesso pessoal.
Como prática recomendada de segurança, ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que o senhor use o acesso pessoal tokens pertencente à entidade de serviço em vez dos usuários do workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.
-
Instale e configure o driver ODBC do Databricks para o seu sistema operacional.
-
Configure um ODBC fonte de dados Name (DSN) para seu clustering remoto ou SQL warehouse para WindowsO senhor pode configurar um DSN para o cluster remoto ou para macOS, macOS ou Linux, com base no sistema operacional de sua máquina local.
-
No console RStudio (view > Move Focus to Console ), instale o pacote ODBC e o pacote DBI de CRAN:
Rrequire(devtools)
install_version(
package = "odbc",
repos = "http://cran.us.r-project.org"
)
install_version(
package = "DBI",
repos = "http://cran.us.r-project.org"
) -
No seu script R ( visualizar > Mover foco para a origem ), carregue os pacotes
odbceDBIinstalados:Rlibrary(odbc)
library(DBI) -
Chame a versão ODBC da função dbConnect no pacote
DBI, especificando o driverodbcno pacoteodbce o DSN ODBC que você criou, por exemplo, um DSN ODBC deDatabricks.Rconn = dbConnect(
drv = odbc(),
dsn = "Databricks"
) -
Chamar uma operação através do DSN ODBC , por exemplo, uma instrução
SELECTatravés da função dbGetQuery no pacoteDBI, especificando o nome da variável de conexão e a própria instruçãoSELECT, por exemplo, de uma tabela chamadadiamondsem um esquema (banco de dados) chamadodefault:Rprint(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
O script R completo é o seguinte:
library(odbc)
library(DBI)
conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
Para executar o script, na fonte view, clique em Source . Os resultados do script R anterior são os seguintes:
_c0 carat cut color clarity depth table price x y z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31