メインコンテンツまでスキップ

Databricks 上の RStudio

R の一般的な統合開発環境 (IDE) であるRStudio使用して、ローカル開発マシンからDatabricksワークスペース内のDatabricksコンピュート リソースに接続できます。

RStudioデスクトップをセットアップする

ローカル開発マシンで RStudio Desktop を設定するには:

  1. R 3.3.0 以降をダウンロードしてインストールします。
  2. RStudio Desktopをダウンロードしてインストールします。
  3. RStudio Desktop を起動します。

(オプション)RStudio プロジェクトを作成するには:

  1. RStudio Desktop を起動します。
  2. [ファイル] > [新しいプロジェクト] をクリックします。
  3. [新しいディレクトリ] > [新しいプロジェクト ] を選択します。
  4. プロジェクトの新しいディレクトリを選択し、[ プロジェクトの作成 ] をクリックします。

R スクリプトを作成するには:

  1. プロジェクトを開いた状態で、[ ファイル] > [新しいファイル] > [R スクリプト ] をクリックします。
  2. 「ファイル」>「名前を付けて保存」 をクリックします。
  3. ファイルに名前を付けて、[ 保存 ] をクリックします。

Databricksに接続する

RStudio Desktop を使用してローカル開発マシンからリモートDatabricksクラスターまたはSQLウェアハウスに接続するには、 ODBC接続を使用し、R のODBCパッケージ関数を呼び出します。

注記

この デスクトップシナリオでは、 も使用しない限り、 SparkR RStudioDatabricks ConnectSparklyr などのパッケージを使用することはできません。

for R Databricksを使用してリモート クラスターまたはSQL ウェアハウスに接続するには、次のようにします。ODBC

  1. リモートクラスターまたは SQLウェア ハウスの サーバー ホスト名ポート 、および HTTP パスの 値を取得します。クラスターの場合、これらの値は[詳細オプション] の / JDBC タブにあります。ODBC SQLウェアハウスの場合、これらの値は [ 接続の詳細] タブにあります。

  2. Databricks の個人用アクセス トークンを取得します。

注記

セキュリティのベストプラクティスとして、自動化されたツール、システム、スクリプト、アプリで認証する場合、Databricks では、ワークスペースユーザーではなく 、サービスプリンシパル に属する個人用アクセストークンを使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンの管理」を参照してください。

  1. オペレーティング システム用のDatabricks ODBC ドライバーをインストールして構成します

  2. ODBCデータソース名 (DSN)SQL を、ローカル マシンのオペレーティング システムに基づいて、リモート クラスタリングまたは 、macOS、 またはWindowsLinux の ウェアハウスに設定します。

  3. コンソール([表示]>[フォーカスをコンソールに移動])から、 ODBC次のRStudio から パッケージとDBI パッケージをインストールします。CRAN

    R
    require(devtools)

    install_version(
    package = "odbc",
    repos = "http://cran.us.r-project.org"
    )

    install_version(
    package = "DBI",
    repos = "http://cran.us.r-project.org"
    )
  4. R スクリプト ( [表示] > [フォーカスをソースに移動] ) で、インストールされているodbcパッケージとDBIパッケージを読み込みます。

    R
    library(odbc)
    library(DBI)
  5. odbcパッケージのodbcドライバーと、作成した ODBC DSN (たとえば、ODBC DSN はDatabricks ) を指定して、 DBIパッケージのdbConnect関数の ODBC バージョンを呼び出します。

    R
    conn = dbConnect(
    drv = odbc(),
    dsn = "Databricks"
    )
  6. ODBC DSN を介して操作を呼び出します。たとえば、 DBIパッケージのdbGetQuery関数を介してSELECTステートメントを呼び出します。接続変数の名前とSELECTステートメント自体を指定します。たとえば、 defaultという名前のスキーマ (データベース) のdiamondsという名前のテーブルから操作を呼び出します。

    R
    print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

完全な R スクリプトは次のとおりです。

R
library(odbc)
library(DBI)

conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

スクリプトを実行するには、ソース ビューで [ソース ] をクリックします。 上記の R スクリプトの結果は次のとおりです。

  _c0 carat     cut color clarity depth table price    x    y    z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31