RStudio na Databricks

Você pode usar RStudio, um ambiente de desenvolvimento integrado (IDE) popular para R, para se conectar ao recurso compute Databricks dentro do espaço de trabalho Databricks a partir da sua máquina de desenvolvimento local.

Configurar o RStudio Desktop

Para configurar o RStudio Desktop em seu computador de desenvolvimento local:

Faça o download e instale o R 3.3.0 ou superior.
Faça o download e instale o RStudio Desktop.
RStudio Desktop.

(Opcional) Para criar um projeto do RStudio:

RStudio Desktop.
Clique em Arquivo > Novo projeto .
Selecione Novo diretório > Novo projeto .
Escolha um novo diretório para o projeto e clique em Criar projeto .

Para criar um script R:

Com o projeto aberto, clique em Arquivo > Novo Arquivo > R Script .
Clique em Arquivo > Salvar como .
Dê um nome ao arquivo e clique em Salvar .

Conecte-se ao Databricks

Para usar RStudio Desktop para se conectar a um cluster Databricks remoto ou a SQL warehouse a partir da sua máquina de desenvolvimento local, use uma conexão ODBC e chame as funções do pacote ODBC para R.

nota

O senhor não pode usar pacotes como SparkR ou Sparklyr neste cenário do RStudio Desktop, a menos que o senhor também use o Databricks Connect.

Para se conectar ao clustering remoto Databricks ou SQL warehouse por meio de ODBC para R:

Obtenha os valores hostnamedo servidor , porta e caminho HTTP para seu cluster remoto ou SQL warehouse Para um cluster, esses valores estão na tab JDBC/ODBC das opções avançadas . Para um SQL warehouse, esses valores estão na tab Detalhes da conexão .
Obtenha um Databricks tokens de acesso pessoal.

nota

Como prática recomendada de segurança, ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que o senhor use o acesso pessoal tokens pertencente à entidade de serviço em vez dos usuários do workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

Instale e configure o driver ODBC do Databricks para o seu sistema operacional.
Configure um ODBC fonte de dados Name (DSN) para seu clustering remoto ou SQL warehouse para WindowsO senhor pode configurar um DSN para o cluster remoto ou para macOS, macOS ou Linux, com base no sistema operacional de sua máquina local.

No console RStudio (view > Move Focus to Console ), instale o pacote ODBC e o pacote DBI de CRAN:

R
require(devtools)

install_version(
  package = "odbc",
  repos   = "http://cran.us.r-project.org"
)

install_version(
  package = "DBI",
  repos   = "http://cran.us.r-project.org"
)

No seu script R ( visualizar > Mover foco para a origem ), carregue os pacotes odbc e DBI instalados:
R
```
library(odbc)
library(DBI)
```
Chame a versão ODBC da função dbConnect no pacote DBI , especificando o driver odbc no pacote odbc e o DSN ODBC que você criou, por exemplo, um DSN ODBC de Databricks.
R
```
conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)
```
Chamar uma operação através do DSN ODBC , por exemplo, uma instrução SELECT através da função dbGetQuery no pacote DBI , especificando o nome da variável de conexão e a própria instrução SELECT , por exemplo, de uma tabela chamada diamonds em um esquema (banco de dados) chamado default:
R
```
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
```

O script R completo é o seguinte:

R
library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Para executar o script, na fonte view, clique em Source . Os resultados do script R anterior são os seguintes:

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31

Configurar o RStudio Desktop​

Conecte-se ao Databricks​

Configurar o RStudio Desktop

Conecte-se ao Databricks