ワークスペースファイルとは?
ワークスペース ファイルは、Databricks ワークスペース ファイル ツリー内のファイルであり、次に示す種類のいずれにも該当しません。
ノートブック
クエリー
ダッシュボード
Genie Space
エクスペリメント
これらの除外されたタイプ以外のワークスペース ファイルは、任意のファイルの種類にすることができます。 一般的な例は次のとおりです。
.py
カスタムモジュールで使用されるファイル。.md
ファイル(README.md
など).csv
またはその他の小さなデータファイル。.txt
ファイル。.whl
ライブラリ。ログファイル。
ファイルの操作に関する推奨事項については、 ボリューム内のファイルおよびワークスペース ファイルに関する推奨事項を参照してください。
Databricks ワークスペース ファイル ツリーには、"Databricks Git フォルダー" という Git リポジトリにアタッチされたフォルダーを含めることができます。 ファイルタイプのサポートには、いくつかの追加の制限があります。 Git フォルダー (旧称 "Repos") でサポートされているファイルの種類の一覧については、「 Git フォルダーでサポートされているアセットの種類」を参照してください。
重要
ワークスペース ファイルは、 Databricks Runtime バージョン 11.2 の デフォルト によってどこでも有効になります。 本番運用ワークロードの場合は、 Databricks Runtime 11.3 LTS 以上を使用してください。 この機能にアクセスできない場合は、ワークスペース管理者に問い合わせてください。
ワークスペース ファイルでできること
Databricksは、組み込みのファイルエディターなど、多くの種類のワークスペースファイルに対してローカル開発と同様の機能を提供します。すべてのファイルタイプやすべてのユースケースがサポートされているわけではありません。
ワークスペースファイルへのアクセスを作成、編集、管理するには、ノートブックの操作で使い慣れたパターンを使用します。ワークスペースファイルからのライブラリのインポートには、ローカル開発と同様の相対パスを使用できます。詳細については、次を参照してください。
ワークスペース ファイルに格納された initスクリプトには、特別な動作があります。 ワークスペースファイルを使用して、任意の Databricks Runtime バージョンの initスクリプトを保存および参照できます。 「 initスクリプトをワークスペース ファイルに保存する」を参照してください。
注
Databricks Runtime 14.0 以降では、ローカルで実行されるコードの既定の現在の作業ディレクトリ (CWD) は、実行されているノートブックまたはスクリプトを含むディレクトリです。 これは、Databricks Runtime 13.3 LTS 以前からの動作の変更です。 「デフォルトの現在の作業ディレクトリは何ですか?」を参照してください。
制限事項
ワークフローで リモート Git リポジトリにあるソース コードを使用している場合、現在のディレクトリに書き込んだり、相対パスを使用して書き込んだりすることはできません。 他のロケーション オプションにデータを書き込みます。
ワークスペース ファイルに保存するときに
git
コマンドを使用することはできません。 ワークスペース ファイルでは、.git
ディレクトリの作成は許可されていません。Sparkエグゼキューター (
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
など) を使用したワークスペース ファイルからの読み込みは、サーバレス コンピュートではサポートされていません。エグゼキューターはワークスペースファイルに書き込むことができません。
シンボリックリンクは、
/Workspace
ルートフォルダの下のターゲットディレクトリ(os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")
など)でのみサポートされます。Databricks Runtime 14.2 以前の 共有アクセス モード を持つクラスター上の ユーザー定義関数 (UDF) からワークスペース ファイルにアクセスすることはできません。
ワークスペースファイルを有効にする
Databricks ワークスペースでノートブック以外のファイルのサポートを有効にするには、 /api/2.0/ワークスペース-confを呼び出します。 Databricks ワークスペースにアクセスできるノートブックまたは他の環境からの REST API。 ワークスペース ファイルはデフォルトで有効になっています。
Databricks ワークスペースでノートブック以外のファイルのサポートを有効または再度有効にするには、 /api/2.0/workspace-conf
を呼び出して、 enableWorkspaceFileSystem
キーの値を取得します。 true
に設定されている場合、ノートブック以外のファイルはワークスペースですでに有効になっています。
次の例は、ノートブックからこの API を呼び出して、ワークスペース ファイルが無効になっているかどうかを確認し、無効になっている場合は再度有効にする方法を示しています。