Databricks Runtime 5.4 for ML (EoS)
この Databricks Runtime バージョンのサポートは終了しました。 サポート終了日については、「 サポート終了の履歴」を参照してください。 サポートされているすべての Databricks Runtime バージョンについては、「 Databricks Runtime リリースノートのバージョンと互換性」を参照してください。
Databricks は 2019 年 6 月にこのバージョンをリリースしました。
Databricks Runtime 5.4 for Machine Learning は、 Databricks Runtime 5.4 (EoS) に基づく機械学習とデータサイエンスのためのすぐに使える環境を提供します。Databricks Runtime ML には、TensorFlow、PyTorch、Keras、XGBoost など、一般的な機械学習ライブラリが多数含まれています。 また、 Horovodを使用した分散ディープラーニング トレーニングもサポートしています。
Databricks RuntimeMLクラスターの作成手順など、詳細については、「AI での と機械学習Databricks 」を参照してください。
新機能
Databricks Runtime 5.4 ML は、Databricks Runtime 5.4 の上に構築されています。Databricks Runtime 5.4 の新機能については、Databricks Runtime 5.4 (EoS) リリースノートを参照してください。
ライブラリの更新に加えて、Databricks Runtime 5.4 ML では次の新機能が導入されています。
分散型 Hyperopt + 自動 MLflow 追跡
Databricks Runtime 5.4 ML では、ハイパーチューニングパラメーターをスケーリングおよび簡素化するために、Hyperopt powered by Apache Spark の新しい実装が導入されています。Apache Spark を使用して複数のマシンとノード間で Hyperopt の試用実行を分散するために、新しい Trials
クラス SparkTrials
が実装されています。 さらに、すべてのチューニング エクスペリメントは、tuned ハイパーパラメータとターゲット メトリクスと共に、 MLflow 実行に自動的にログに記録されます。 ハイパーパラメーターチューニングHyperopt並列化を参照してください。
プレビュー
この機能は パブリック プレビュー段階です。
Apache Spark MLlib + 自動 MLflow 追跡
Databricks Runtime 5.4 ML は、PySpark チューニング アルゴリズム (CrossValidator
と TrainValidationSplit
を使用して、適合するモデルの MLflow 実行の自動ログ記録をサポートしています。「Apache Spark MLlib と自動 MLflow 追跡」を参照してください。この機能は、 Databricks Runtime 5.4 ML ではデフォルトによってオンになっていますが、 Databricks Runtime 5.3 MLではデフォルトによってオフになっていました。
プレビュー
この機能は パブリック プレビュー段階です。
HorovodRunner 改善
Horovod から Spark ドライバー ノードに送信された出力が、ノートブックのセルに表示されるようになりました。
XGBoost Python パッケージの更新
XGBoost Pythonパッケージ 0.80がインストールされています。
Databricks Runtime 5.4 には、データの読み込み、モデルのチェックポイント処理、および各ワーカーから共有ストレージの場所 file:/dbfs/ml
へのログ記録に最適化された新しい FUSE マウントが含まれており、ディープラーニング ワークロードに高パフォーマンスの I/O を提供します。 「機械学習とディープラーニングのデータの読み込み」を参照してください。
システム環境
Databricks Runtime 5.4 ML のシステム環境は、Databricks Runtime 5.4 と次のように異なります。
- Python : Python 2 クラスターの場合は 2.7.15、Python 3 クラスターの場合は 3.6.5。
- DBUtils : Databricks Runtime 5.4 ML には、 ライブラリ ユーティリティ (dbutils.ライブラリ) (レガシー) は含まれていません。
- GPU クラスターの場合、次の NVIDIA GPU ライブラリ:
- テスラドライバー396.44
- CUDA 9.2の
- CUDNN 7.2.1
ライブラリ
次のセクションでは、Databricks Runtime 5.4 ML に含まれるライブラリと Databricks Runtime 5.4 に含まれるライブラリが異なるライブラリの一覧を示します。
トップクラスのライブラリ
Databricks Runtime 5.4 ML には、次の最上位 ライブラリが含まれています。
Python ライブラリ
Databricks Runtime 5.4 ML では、Python パッケージ管理に Conda が使用されます。 その結果、Databricks Runtime と比較して、インストールされている Python ライブラリには大きな違いがあります。 以下は、提供されている Python パッケージと Conda パッケージ マネージャーを使用してインストールされたバージョンの完全なリストです。
ライブラリ | バージョン | ライブラリ | バージョン | ライブラリ | バージョン |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | ASN1暗号 | 0.24.0 |
アスター | 0.7.1 | バックポート-ABC | 0.5 | backports.functools-lru-cache(キャッシュ) | 1.5 |
backports.weakref です。 | 1.0.投稿1 | bcryptの | 3.1.6 | ブリーチ | 2.1.3 |
Boto | 2.48.0 | ボト3 | 1.7.62 | ボトコア | 1.10.62 |
認証 | 2018.04.16 | cffi | 1.11.5 | シャルデ | 3.0.4 |
クラウドピクルス | 0.5.3 | コロラマ州 | 0.3.9 | コンフィグパーサー | 3.5.0 |
暗号化手法 | 2.2.2 | サーマルサイクラー | 0.10.0 | シトン | 0.28.2 |
デコレータ | 4.3.0 | docutilsの | 0.14 | エントリポイント | 0.2.3 |
列挙型34 | 1.1.6 | et-xmlファイル | 1.0.1 | 関数 | 1.0.2 |
ファンクツールズ32 | 3.2.3-2 | ヒューズピー | 2.0.4 | 未来 | 0.17.1 |
先物 | 3.2.0 | ガスト | 0.2.2 | grpcio | 1.12.1 |
h5pyさん | 2.8.0 | Horovod | 0.16.0 | html5lib の | 1.0.1 |
Hyperopt | 0.1.2.db4 | イドナ | 2.6 | IPアドレス | 1.0.22 |
アイパイソン | 5.7.0 | ipython_genutils | 0.2.0 | JDCALの | 1.4 |
ジンジャ2 | 2.10 | jmespathの | 0.9.4 | jsonschema(jsonschema) | 2.6.0 |
jupyter-クライアント | 5.2.3 | ジュピターコア | 4.4.0 | keras | 2.2.4 |
Keras-アプリケーション | 1.0.7 | Keras- 前処理 | 1.0.9 | キウイソルバー | 1.1.0 |
ラインキャッシュ2 | 1.0.0 | LLVMLITEの | 0.23.1 | lxml の | 4.2.1 |
Markdown | 3.1.1 | マークアップセーフ | 1.0 | Matplotlib | 2.2.2 |
ミスチューン | 0.8.3 | MKL-FFTの | 1.0.0 | mkl-ランダム | 1.0.1 |
MLeap | 0.8.1 | 嘲る | 2.0.0 | msgpackの | 0.5.6 |
NBコンバート | 5.3.1 | NBフォーマット | 4.4.0 | ネットワークX | 2.2 |
鼻 | 1.3.7 | ノーズ除外 | 0.5.0 | ナンバ | 0.38.0 + 0.g2a2b772fc.dirty |
ナムピー | 1.14.3 | olefileの | 0.45.1 | openpyxlの | 2.5.3 |
pandas | 0.23.0 | pandocフィルター | 1.4.2 | パラミコ | 2.4.1 |
pathlib2 の | 2.3.2 | パッツィ | 0.5.0 | PBRの | 5.1.3 |
pexpect | 4.5.0 | ピクルシェア | 0.7.4 | 枕 | 5.1.0 |
種 | 10.0.1 | 通う | 3.11 | プロンプトツールキット | 1.0.15 |
プロトブフ | 3.7.1 | psutil の | 5.6.2 | サイコップ2 | 2.7.5 |
PTYPROCESSの | 0.5.2 | ピアロー | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | ピグメント | 2.2.0 | ピモンゴ | 3.8.0 |
PyNaClの | 1.3.0 | pyOpenSSLの | 18.0.0 | pyparsing (英語) | 2.2.0 |
PySocks(パイソックス) | 1.6.8 | Python | 2.7.15 | Python-dateutil | 2.7.3 |
ピッツ | 2018.4 | PyYAML (英語) | 5.1 | ピズム | 17.0.0 |
要求 | 2.18.4 | S3トランスファー | 0.1.13 | スカンディール | 1.7 |
Scikit-Learn | 0.19.1 | scipy(サイピー) | 1.1.0 | シーボーン | 0.8.1 |
セットアップツール | 39.1.0 | シンプル汎用 | 0.8.1 | シングルディスパッチ | 3.4.0.3 |
6 | 1.11.0 | 統計モデル | 0.9.0 | サブプロセス32 | 3.5.4 |
TensorBoard | 1.12.2 | テンソルボードX | 1.6 | TensorFlow | 1.12.0 |
タームカラー | 1.1.0 | テストパス | 0.3.1 | トーチ | 0.4.1 |
トーチビジョン | 0.2.1 | 竜巻 | 5.0.2 | tqdm | 4.32.1 |
トレースバック2 | 1.4.0 | トレイトレット | 4.3.2 | ユニットテスト2 | 1.1.0 |
urllib3 の | 1.22 | virtualenv | 16.0.0 | WC幅 | 0.1.7 |
webエンコーディング | 0.5.1 | ヴェルクツォイク | 0.14.1 | 輪 | 0.31.1 |
ラッピング | 1.10.11 | WSGIREFの | 0.1.2 |
さらに、次の Spark パッケージには Python モジュールが含まれています。
Spark パッケージ | Python モジュール | バージョン |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
スパークディープラーニング | スパークDL | 1.5.0-db3-spark2.4 |
テンソルフレーム | テンソルフレーム | 0.6.0 から s_2.11 |
R ライブラリ
R ライブラリは、Databricks Runtime 5.4 の R ライブラリと同じです。
Java and Scala ライブラリ (Scala 2.11 クラスター)
Databricks Runtime 5.4 ML には、Databricks Runtime 5.4 の Java ライブラリと Scala ライブラリに加えて、次の JAR が含まれています。
グループID | アーティファクト ID | バージョン |
---|---|---|
com.databricksの | スパークディープラーニング | 1.5.0-db3-spark2.4 |
com.typesafe.akka (英語) | アッカ-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | XGブースト4J | 0.81 |
ml.dmlc | XGBOOST4J-スパーク | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflowの | リテンソルフロー | 1.12.0 |
org.tensorflowの | libtensorflow_jni | 1.12.0 |
org.tensorflowの | スパークテンソルフロー connector_2.11 | 1.12.0 |
org.tensorflowの | TensorFlow | 1.12.0 |
org.tensorフレーム | テンソルフレーム | 0.6.0 から s_2.11 |