Pular para o conteúdo principal

RStudio na Databricks

Você pode usar RStudio, um ambiente de desenvolvimento integrado (IDE) popular para R, para se conectar ao recurso compute Databricks dentro do espaço de trabalho Databricks a partir da sua máquina de desenvolvimento local.

Configurar o RStudio Desktop

Para configurar o RStudio Desktop em seu computador de desenvolvimento local:

  1. Faça o download e instale o R 3.3.0 ou superior.
  2. Faça o download e instale o RStudio Desktop.
  3. RStudio Desktop.

(Opcional) Para criar um projeto do RStudio:

  1. RStudio Desktop.
  2. Clique em Arquivo > Novo projeto .
  3. Selecione Novo diretório > Novo projeto .
  4. Escolha um novo diretório para o projeto e clique em Criar projeto .

Para criar um script R:

  1. Com o projeto aberto, clique em Arquivo > Novo Arquivo > R Script .
  2. Clique em Arquivo > Salvar como .
  3. Dê um nome ao arquivo e clique em Salvar .

Conecte-se ao Databricks

Para usar RStudio Desktop para se conectar a um cluster Databricks remoto ou a SQL warehouse a partir da sua máquina de desenvolvimento local, use uma conexão ODBC e chame as funções do pacote ODBC para R.

nota

O senhor não pode usar pacotes como SparkR ou Sparklyr neste cenário do RStudio Desktop, a menos que o senhor também use o Databricks Connect.

Para se conectar ao clustering remoto Databricks ou SQL warehouse por meio de ODBC para R:

  1. Obtenha os valores hostnamedo servidor , porta e caminho HTTP para seu cluster remoto ou SQL warehouse Para um cluster, esses valores estão na tab JDBC/ODBC das opções avançadas . Para um SQL warehouse, esses valores estão na tab Detalhes da conexão .

  2. Obtenha um Databricks tokens de acesso pessoal.

nota

Como prática recomendada de segurança ao se autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, a Databricks recomenda que você use tokens OAuth.

Se o senhor usar a autenticação de tokens de acesso pessoal, a Databricks recomenda usar o acesso pessoal tokens pertencente à entidade de serviço em vez de usuários workspace. Para criar tokens o site para uma entidade de serviço, consulte gerenciar tokens para uma entidade de serviço.

  1. Instale e configure o driver ODBC do Databricks para o seu sistema operacional.

  2. Configure um ODBC fonte de dados Name (DSN) para seu clustering remoto ou SQL warehouse para WindowsO senhor pode configurar um DSN para o cluster remoto ou para macOS, macOS ou Linux, com base no sistema operacional de sua máquina local.

  3. No console RStudio (view > Move Focus to Console ), instale o pacote ODBC e o pacote DBI de CRAN:

    R
    require(devtools)

    install_version(
    package = "odbc",
    repos = "http://cran.us.r-project.org"
    )

    install_version(
    package = "DBI",
    repos = "http://cran.us.r-project.org"
    )
  4. No seu script R ( visualizar > Mover foco para a origem ), carregue os pacotes odbc e DBI instalados:

    R
    library(odbc)
    library(DBI)
  5. Chame a versão ODBC da função dbConnect no pacote DBI , especificando o driver odbc no pacote odbc e o DSN ODBC que você criou, por exemplo, um DSN ODBC de Databricks.

    R
    conn = dbConnect(
    drv = odbc(),
    dsn = "Databricks"
    )
  6. Chamar uma operação através do DSN ODBC , por exemplo, uma instrução SELECT através da função dbGetQuery no pacote DBI , especificando o nome da variável de conexão e a própria instrução SELECT , por exemplo, de uma tabela chamada diamonds em um esquema (banco de dados) chamado default:

    R
    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

O script R completo é o seguinte:

R
library(odbc)
library(DBI)

conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

Para executar o script, na fonte view, clique em Source . Os resultados do script R anterior são os seguintes:

  _c0 carat     cut color clarity depth table price    x    y    z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31