メインコンテンツまでスキップ

Databricks Runtime 5.4 for ML (EoS)

注記

この Databricks Runtime バージョンのサポートは終了しました。 サポート終了日については、「 サポート終了の履歴」を参照してください。 サポートされているすべての Databricks Runtime バージョンについては、「 Databricks Runtime リリースノートのバージョンと互換性」を参照してください。

Databricks は 2019 年 6 月にこのバージョンをリリースしました。

Databricks Runtime 5.4 for Machine Learning は、 Databricks Runtime 5.4 (EoS) に基づく機械学習とデータサイエンスのためのすぐに使える環境を提供します。Databricks Runtime ML には、TensorFlow、PyTorch、Keras、XGBoost など、一般的な機械学習ライブラリが多数含まれています。 また、 Horovodを使用した分散ディープラーニング トレーニングもサポートしています。

Databricks RuntimeMLクラスターの作成手順など、詳細については、「AI での と機械学習Databricks 」を参照してください。

新機能

Databricks Runtime 5.4 ML は、Databricks Runtime 5.4 の上に構築されています。Databricks Runtime 5.4 の新機能については、Databricks Runtime 5.4 (EoS) リリースノートを参照してください。

ライブラリの更新に加えて、Databricks Runtime 5.4 ML では次の新機能が導入されています。

分散型 Hyperopt + 自動 MLflow 追跡

Databricks Runtime 5.4 ML では、ハイパーチューニングパラメーターをスケーリングおよび簡素化するために、Hyperopt powered by Apache Spark の新しい実装が導入されています。Apache Spark を使用して複数のマシンとノード間で Hyperopt の試用実行を分散するために、新しい Trials クラス SparkTrials が実装されています。 さらに、すべてのチューニング エクスペリメントは、tuned ハイパーパラメータとターゲット メトリクスと共に、 MLflow 実行に自動的にログに記録されます。 ハイパーパラメーターチューニングHyperopt並列化を参照してください。

備考

プレビュー

この機能は パブリック プレビュー段階です。

Apache Spark MLlib + 自動 MLflow 追跡

Databricks Runtime 5.4 ML は、PySpark チューニング アルゴリズム (CrossValidatorTrainValidationSplitを使用して、適合するモデルの MLflow 実行の自動ログ記録をサポートしています。「Apache Spark MLlib と自動 MLflow 追跡」を参照してください。この機能は、 Databricks Runtime 5.4 ML ではデフォルトによってオンになっていますが、 Databricks Runtime 5.3 MLではデフォルトによってオフになっていました。

備考

プレビュー

この機能は パブリック プレビュー段階です。

HorovodRunner 改善

Horovod から Spark ドライバー ノードに送信された出力が、ノートブックのセルに表示されるようになりました。

XGBoost Python パッケージの更新

XGBoost Pythonパッケージ 0.80がインストールされています。

注記

Databricks Runtime 5.4 には、データの読み込み、モデルのチェックポイント処理、および各ワーカーから共有ストレージの場所 file:/dbfs/mlへのログ記録に最適化された新しい FUSE マウントが含まれており、ディープラーニング ワークロードに高パフォーマンスの I/O を提供します。 「機械学習とディープラーニングのデータの読み込み」を参照してください。

システム環境

Databricks Runtime 5.4 ML のシステム環境は、Databricks Runtime 5.4 と次のように異なります。

ライブラリ

次のセクションでは、Databricks Runtime 5.4 ML に含まれるライブラリと Databricks Runtime 5.4 に含まれるライブラリが異なるライブラリの一覧を示します。

トップクラスのライブラリ

Databricks Runtime 5.4 ML には、次の最上位 ライブラリが含まれています。

Python ライブラリ

Databricks Runtime 5.4 ML では、Python パッケージ管理に Conda が使用されます。 その結果、Databricks Runtime と比較して、インストールされている Python ライブラリには大きな違いがあります。 以下は、提供されている Python パッケージと Conda パッケージ マネージャーを使用してインストールされたバージョンの完全なリストです。

ライブラリ

バージョン

ライブラリ

バージョン

ライブラリ

バージョン

absl-py

0.7.1

argparse

1.4.0

ASN1暗号

0.24.0

アスター

0.7.1

バックポート-ABC

0.5

backports.functools-lru-cache(キャッシュ)

1.5

backports.weakref です。

1.0.投稿1

bcryptの

3.1.6

ブリーチ

2.1.3

Boto

2.48.0

ボト3

1.7.62

ボトコア

1.10.62

認証

2018.04.16

cffi

1.11.5

シャルデ

3.0.4

クラウドピクルス

0.5.3

コロラマ州

0.3.9

コンフィグパーサー

3.5.0

暗号化手法

2.2.2

サーマルサイクラー

0.10.0

シトン

0.28.2

デコレータ

4.3.0

docutilsの

0.14

エントリポイント

0.2.3

列挙型34

1.1.6

et-xmlファイル

1.0.1

関数

1.0.2

ファンクツールズ32

3.2.3-2

ヒューズピー

2.0.4

未来

0.17.1

先物

3.2.0

ガスト

0.2.2

grpcio

1.12.1

h5pyさん

2.8.0

Horovod

0.16.0

html5lib の

1.0.1

Hyperopt

0.1.2.db4

イドナ

2.6

IPアドレス

1.0.22

アイパイソン

5.7.0

ipython_genutils

0.2.0

JDCALの

1.4

ジンジャ2

2.10

jmespathの

0.9.4

jsonschema(jsonschema)

2.6.0

jupyter-クライアント

5.2.3

ジュピターコア

4.4.0

keras

2.2.4

Keras-アプリケーション

1.0.7

Keras- 前処理

1.0.9

キウイソルバー

1.1.0

ラインキャッシュ2

1.0.0

LLVMLITEの

0.23.1

lxml の

4.2.1

Markdown

3.1.1

マークアップセーフ

1.0

Matplotlib

2.2.2

ミスチューン

0.8.3

MKL-FFTの

1.0.0

mkl-ランダム

1.0.1

MLeap

0.8.1

嘲る

2.0.0

msgpackの

0.5.6

NBコンバート

5.3.1

NBフォーマット

4.4.0

ネットワークX

2.2

1.3.7

ノーズ除外

0.5.0

ナンバ

0.38.0 + 0.g2a2b772fc.dirty

ナムピー

1.14.3

olefileの

0.45.1

openpyxlの

2.5.3

pandas

0.23.0

pandocフィルター

1.4.2

パラミコ

2.4.1

pathlib2 の

2.3.2

パッツィ

0.5.0

PBRの

5.1.3

pexpect

4.5.0

ピクルシェア

0.7.4

5.1.0

10.0.1

通う

3.11

プロンプトツールキット

1.0.15

プロトブフ

3.7.1

psutil の

5.6.2

サイコップ2

2.7.5

PTYPROCESSの

0.5.2

ピアロー

0.12.1

pyasn1

0.4.5

pycparser

2.18

ピグメント

2.2.0

ピモンゴ

3.8.0

PyNaClの

1.3.0

pyOpenSSLの

18.0.0

pyparsing (英語)

2.2.0

PySocks(パイソックス)

1.6.8

Python

2.7.15

Python-dateutil

2.7.3

ピッツ

2018.4

PyYAML (英語)

5.1

ピズム

17.0.0

要求

2.18.4

S3トランスファー

0.1.13

スカンディール

1.7

Scikit-Learn

0.19.1

scipy(サイピー)

1.1.0

シーボーン

0.8.1

セットアップツール

39.1.0

シンプル汎用

0.8.1

シングルディスパッチ

3.4.0.3

6

1.11.0

統計モデル

0.9.0

サブプロセス32

3.5.4

TensorBoard

1.12.2

テンソルボードX

1.6

TensorFlow

1.12.0

タームカラー

1.1.0

テストパス

0.3.1

トーチ

0.4.1

トーチビジョン

0.2.1

竜巻

5.0.2

tqdm

4.32.1

トレースバック2

1.4.0

トレイトレット

4.3.2

ユニットテスト2

1.1.0

urllib3 の

1.22

virtualenv

16.0.0

WC幅

0.1.7

webエンコーディング

0.5.1

ヴェルクツォイク

0.14.1

0.31.1

ラッピング

1.10.11

WSGIREFの

0.1.2

さらに、次の Spark パッケージには Python モジュールが含まれています。

Spark パッケージ

Python モジュール

バージョン

graphframes

graphframes

0.7.0-db1-spark2.4

スパークディープラーニング

スパークDL

1.5.0-db3-spark2.4

テンソルフレーム

テンソルフレーム

0.6.0 から s_2.11

R ライブラリ

R ライブラリは、Databricks Runtime 5.4 の R ライブラリと同じです。

Java and Scala ライブラリ (Scala 2.11 クラスター)

Databricks Runtime 5.4 ML には、Databricks Runtime 5.4 の Java ライブラリと Scala ライブラリに加えて、次の JAR が含まれています。

グループID

アーティファクト ID

バージョン

com.databricksの

スパークディープラーニング

1.5.0-db3-spark2.4

com.typesafe.akka (英語)

アッカ-actor_2.11

2.3.11

ml.combust.mleap

mleap-databricks-runtime_2.11

0.13.0

ml.dmlc

XGブースト4J

0.81

ml.dmlc

XGBOOST4J-スパーク

0.81

org.graphframes

graphframes_2.11

0.7.0-db1-spark2.4

org.tensorflowの

リテンソルフロー

1.12.0

org.tensorflowの

libtensorflow_jni

1.12.0

org.tensorflowの

スパークテンソルフロー connector_2.11

1.12.0

org.tensorflowの

TensorFlow

1.12.0

org.tensorフレーム

テンソルフレーム

0.6.0 から s_2.11