Databricks 上の RStudio

R の一般的な統合開発環境 (IDE) であるRStudio使用して、ローカル開発マシンからDatabricksワークスペース内のDatabricksコンピュートリソースに接続できます。

RStudioデスクトップをセットアップする

ローカル開発マシンで RStudio Desktop を設定するには:

(オプション)RStudio プロジェクトを作成するには:

RStudio Desktop を起動します。
[ファイル] > [新しいプロジェクト] をクリックします。
[新しいディレクトリ] > [新しいプロジェクト ] を選択します。
プロジェクトの新しいディレクトリを選択し、[ プロジェクトの作成 ] をクリックします。

R スクリプトを作成するには:

プロジェクトを開いた状態で、[ ファイル] > [新しいファイル] > [R スクリプト ] をクリックします。
「ファイル」>「名前を付けて保存」 をクリックします。
ファイルに名前を付けて、[ 保存 ] をクリックします。

Databricksに接続する

RStudio Desktop を使用してローカル開発マシンからリモートDatabricksクラスターまたはSQLウェアハウスに接続するには、 ODBC接続を使用し、R のODBCパッケージ関数を呼び出します。

注記

このデスクトップシナリオでは、も使用しない限り、 SparkR や RStudioDatabricks ConnectSparklyr などのパッケージを使用することはできません。

for R Databricksを使用してリモートクラスターまたはSQL ウェアハウスに接続するには、次のようにします。ODBC

リモートクラスターまたは SQLウェアハウスのサーバー ホスト名 、 ポート 、および HTTP パスの 値を取得します。クラスターの場合、これらの値は[詳細オプション] の / JDBC タブにあります。ODBC SQLウェアハウスの場合、これらの値は [ 接続の詳細] タブにあります。
Databricks の個人用アクセストークンを取得します。

注記

自動化されたツール、システム、スクリプト、アプリで認証する際のセキュリティのベストプラクティスとして、Databricks では OAuth トークンを使用することをお勧めします。

パーソナルアクセストークン認証を使用する場合、 Databricks では、ワークスペースユーザーではなく、サービスプリンシパルに属するパーソナルアクセストークンを使用することをお勧めします。サービスプリンシパルのトークンを作成するには、「サービスプリンシパルのトークンの管理」を参照してください。

オペレーティングシステム用のDatabricks ODBC ドライバーをインストールして構成します。
ODBCデータソース名 (DSN)SQL を、ローカルマシンのオペレーティングシステムに基づいて、リモートクラスタリングまたは、macOS、またはWindows Linux のウェアハウスに設定します。

コンソール([表示]>[フォーカスをコンソールに移動])から、 ODBC次のRStudio からパッケージとDBI パッケージをインストールします。CRAN

R
require(devtools)

install_version(
  package = "odbc",
  repos   = "http://cran.us.r-project.org"
)

install_version(
  package = "DBI",
  repos   = "http://cran.us.r-project.org"
)

R スクリプト ( [表示] > [フォーカスをソースに移動] ) で、インストールされているodbcパッケージとDBIパッケージを読み込みます。
R
```
library(odbc)
library(DBI)
```
odbcパッケージのodbcドライバーと、作成した ODBC DSN (たとえば、ODBC DSN はDatabricks ) を指定して、 DBIパッケージのdbConnect関数の ODBC バージョンを呼び出します。
R
```
conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)
```
ODBC DSN を介して操作を呼び出します。たとえば、 DBIパッケージのdbGetQuery関数を介してSELECTステートメントを呼び出します。接続変数の名前とSELECTステートメント自体を指定します。たとえば、 defaultという名前のスキーマ (データベース) のdiamondsという名前のテーブルから操作を呼び出します。
R
```
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
```

完全な R スクリプトは次のとおりです。

R
library(odbc)
library(DBI)

conn = dbConnect(
  drv = odbc(),
  dsn = "Databricks"
)

print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))

スクリプトを実行するには、ソースビューで [ソース ] をクリックします。上記の R スクリプトの結果は次のとおりです。

  _c0 carat     cut color clarity depth table price    x    y    z
1   1  0.23   Ideal     E     SI2  61.5    55   326 3.95 3.98 2.43
2   2  0.21 Premium     E     SI1  59.8    61   326 3.89 3.84 2.31

RStudioデスクトップをセットアップする​

Databricksに接続する​

RStudioデスクトップをセットアップする

Databricksに接続する