Databricks 上の RStudio
R の一般的な統合開発環境 (IDE) であるRStudio使用して、ローカル開発マシンからDatabricksワークスペース内のDatabricksコンピュート リソースに接続できます。
RStudioデスクトップをセットアップする
ローカル開発マシンで RStudio Desktop を設定するには:
- R 3.3.0 以降をダウンロードしてインストールします。
- RStudio Desktopをダウンロードしてインストールします。
- RStudio Desktop を起動します。
(オプション)RStudio プロジェクトを作成するには:
- RStudio Desktop を起動します。
- [ファイル] > [新しいプロジェクト] をクリックします。
- [新しいディレクトリ] > [新しいプロジェクト ] を選択します。
- プロジェクトの新しいディレクトリを選択し、[ プロジェクトの作成 ] をクリックします。
R スクリプトを作成するには:
- プロジェクトを開いた状態で、[ ファイル] > [新しいファイル] > [R スクリプト ] をクリックします。
- 「ファイル」>「名前を付けて保存」 をクリックします。
- ファイルに名前を付けて、[ 保存 ] をクリックします。
Databricksに接続する
RStudio Desktop を使用してローカル開発マシンからリモートDatabricksクラスターまたはSQLウェアハウスに接続するには、 ODBC接続を使用し、R のODBCパッケージ関数を呼び出します。
この デスクトップシナリオでは、 も使用しない限り、 SparkRや RStudioDatabricks ConnectSparklyr などのパッケージを使用することはできません。
for R Databricksを使用してリモート クラスターまたはSQL ウェアハウスに接続するには、次のようにします。ODBC
-
リモートクラスターまたは SQLウェア ハウスの サーバー ホスト名 、 ポート 、および HTTP パスの 値を取得します。クラスターの場合、これらの値は[詳細オプション] の / JDBC タブにあります。ODBC SQLウェアハウスの場合、これらの値は [ 接続の詳細] タブにあります。
-
Databricks の個人用アクセス トークンを取得します。
セキュリティのベストプラクティスとして、自動化されたツール、システム、スクリプト、アプリで認証する場合、Databricks では、ワークスペースユーザーではなく 、サービスプリンシパル に属する個人用アクセストークンを使用することをお勧めします。 サービスプリンシパルのトークンを作成するには、「 サービスプリンシパルのトークンの管理」を参照してください。
-
オペレーティング システム用のDatabricks ODBC ドライバーをインストールして構成します。
-
ODBCデータソース名 (DSN)SQL を、ローカル マシンのオペレーティング システムに基づいて、リモート クラスタリングまたは 、macOS、 またはWindowsLinux の ウェアハウスに設定します。
-
コンソール([表示]>[フォーカスをコンソールに移動])から、 ODBC次のRStudio から パッケージとDBI パッケージをインストールします。CRAN
Rrequire(devtools)
install_version(
package = "odbc",
repos = "http://cran.us.r-project.org"
)
install_version(
package = "DBI",
repos = "http://cran.us.r-project.org"
) -
R スクリプト ( [表示] > [フォーカスをソースに移動] ) で、インストールされている
odbcパッケージとDBIパッケージを読み込みます。Rlibrary(odbc)
library(DBI) -
odbcパッケージのodbcドライバーと、作成した ODBC DSN (たとえば、ODBC DSN はDatabricks) を指定して、DBIパッケージのdbConnect関数の ODBC バージョンを呼び出します。Rconn = dbConnect(
drv = odbc(),
dsn = "Databricks"
) -
ODBC DSN を介して操作を呼び出します。たとえば、
DBIパッケージのdbGetQuery関数を介してSELECTステートメントを呼び出します。接続変数の名前とSELECTステートメント自体を指定します。たとえば、defaultという名前のスキーマ (データベース) のdiamondsという名前のテーブルから操作を呼び出します。Rprint(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
完全な R スクリプトは次のとおりです。
library(odbc)
library(DBI)
conn = dbConnect(
drv = odbc(),
dsn = "Databricks"
)
print(dbGetQuery(conn, "SELECT * FROM default.diamonds LIMIT 2"))
スクリプトを実行するには、ソース ビューで [ソース ] をクリックします。 上記の R スクリプトの結果は次のとおりです。
_c0 carat cut color clarity depth table price x y z
1 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
2 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31