メインコンテンツまでスキップ

Databricks Runtime 9.1 LTS for Machine Learning

Databricks はこのイメージをリリースし、2021 年 9 月に長期サポート (LTS) を宣言しました。

Databricks Runtime 9.1 LTS for Machine Learning は、Databricks Runtime 9.1 LTSに基づく機械学習とデータサイエンスのためのすぐに使える環境を提供します。Databricks Runtime ML には、TensorFlow、PyTorch、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。Databricks Runtime ML には、機械学習パイプラインを自動的にトレーニングするツールである AutoML が含まれています。Databricks Runtime ML は、 Horovodを使用した分散ディープラーニング トレーニングもサポートしています。

注記

LTS は、このバージョンが 長期サポート 中であることを意味します。「Databricks Runtime LTS バージョンのライフサイクル」を参照してください。

Databricks RuntimeMLクラスターの作成手順など、詳細については、「AI での と機械学習Databricks 」を参照してください。

注記

これらのリリースノートには、このリリースの時点で Google Cloud で利用できない機能への参照が含まれている場合があります。

ヒント

サポート終了 (EoS) に達した Databricks Runtime バージョンのリリースノートを表示するには、「 サポート終了 Databricks Runtime リリースノート」を参照してください。 EoS Databricks Runtime のバージョンは廃止されており、更新されない可能性があります。

新機能と改善点

AutoML

Databricks Runtime 9.1 LTS ML以降では、次の機能強化が利用可能です。

AutoML は、サンプリングによってより大きなデータセットをサポートします

AutoML では、メモリ制約を超える可能性のあるデータセットがサンプリングされるようになったため、メモリ不足エラーのリスクを減らして、より大きなデータセットで実行できるようになりました。詳細については、「 大規模なデータセットのサンプリング」を参照してください。

AutoML は、セマンティック タイプに基づいて列を前処理します

AutoML は、 Spark データ型または Pandas データ型とは異なるセマンティック タイプを持つ特定の列を検出します。 その後、AutoML は、検出されたセマンティック タイプに基づいてデータの前処理ステップを変換して適用します。具体的には、AutoML は次の変換を実行します。

  • 日付またはタイムスタンプのデータを表す文字列列と整数列は、タイムスタンプタイプに変換されます。
  • 数値データを表す文字列列は、数値型に変換されます。

AutoML で生成されたノートブックの機能強化

日付列とタイムスタンプ列の前処理ステップ が databricks-automl-runtime パッケージに組み込まれ、AutoML トレーニングによって生成されるノートブックが簡素化されました。 databricks-automl-runtime は Databricks ランタイム 9.1 LTS ML以降に含まれており、 PyPI でも利用できます。

特徴量ストア

Databricks Runtime 9.1 LTS ML以降では、次の機能強化が利用可能です。

  • TrainingSet を作成するときに、教師なし学習アプリケーションをサポートするように label=None を設定できるようになりました。
  • 1 つの FeatureLookupで複数のフィーチャを指定できるようになりました。
  • 特徴量テーブルのカスタム パスを指定できるようになりました。 create_feature_table()path パラメーターを使用します。デフォルトはデータベースの場所です。
  • 新しくサポートされた PySpark データ型: ArrayType と ShortType。

mlflowの

次の機能強化は、 Databricks Runtime 9.1 LTS MLに含まれている Mlflow バージョン 1.20.2 以降で使用できます。

  • scikit-learn の自動ロギングで、 sklearn.metrics.mean_squared_errorなどの scikit-learn 評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。
  • PySpark ML の自動ログ記録では、 Evaluator.evaluate()などのモデル評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。
  • mlflow.*.log_model またmlflow.*.save_model``pip_requirements引数と extra_pip_requirements引数を持つようになったため、ログに記録または保存するモデルの pip 要件を直接指定できます。
  • mlflow.*.log_model また、 mlflow.*.save_model は、現在のソフトウェア環境に基づいて、モデルの PIP 要件を自動的に推論してログに記録または保存できるようになりました。
  • stdMetrics エントリは、 PySpark CrossValidator の自動ロギング中にトレーニング メトリクスとして記録されるようになりました。
  • PyTorch Lightning の自動ログ記録で分散実行がサポートされるようになりました。

Databricks Autologging (パブリック プレビュー)

Databricks Autologging パブリック プレビューが新しいリージョンに拡張されました。Databricks Autologging は、 Databricksでの機械学習トレーニング セッションの自動エクスペリメント追跡を提供するノーコード ソリューションです。 Databricks Autologgingを使用すると、さまざまな一般的な機械学習ライブラリからモデルをトレーニングするときに、モデル パラメーター、メトリクス、ファイル、リネージ情報が自動的にキャプチャされます。トレーニング セッションは、 MLflow 追跡実行として記録されます。モデルファイルも追跡されるため、MLflow Model Registryに簡単にログに記録し、MLflowモデルサービングを使用してリアルタイムスコアリングにデプロイできます。

Databricks Autologgingの詳細については、Databricks Autologgingを参照してください。

Databricks Runtime ML Python 環境の主な変更点

Python パッケージのアップグレード

  • automl 1.1.1=> 1.2.1
  • feature_store 0.3.3=> 0.3.4.1
  • 休日 0.10.5.2 = > 0.11.2
  • Keras 2.5.0 = > 2.6.0
  • mlflow 1.19.0 = > 1.20.2
  • petastorm0.11.1 =>0.11.2
  • plotly 4.14.3 => 5.1.0
  • スパークテンソルフローディストリビューター0.1.0=> 1.0.0
  • sparkdl 2.2.0_db1 => 2.2.0_db3
  • TensorBoard 2.5.0 = > 2.6.0
  • TensorFlow 2.5.0 = > 2.6.0

Python パッケージが追加されました

  • Databricks の AutoML ランタイム 0.1.0

システム環境

Databricks Runtime 9.1 LTS ML のシステム環境は、Databricks Runtime 9.1 LTS と次のように異なります。

ライブラリ

次のセクションでは、Databricks Runtime 9.1 LTS ML に含まれるライブラリのうち、それらとは異なるライブラリの一覧を示します Databricks Runtime 9.1 LTS に含まれています。

このセクションの内容:

トップクラスのライブラリ

Databricks Runtime 9.1 LTS ML には、次の最上位 ライブラリが含まれています。

Python ライブラリ

Databricks ランタイム 9.1 LTS MLは、Python パッケージ管理に Virtualenv を使用し、多くの一般的な Intelligent パッケージが含まれています。

次のセクションで指定されているパッケージに加えて、 Databricks Runtime 9.1 LTS MLには次のパッケージも含まれています。

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db3
  • feature_store 0.3.4.1
  • automl 1.2.1

Python ライブラリ on CPU クラスター

ライブラリ

バージョン

ライブラリ

バージョン

ライブラリ

バージョン

absl-py

0.11.0

アンテルゴス Linux

2015.10 (ISOローリング)

appdirs (英語)

1.4.4

アルゴン2-CFFI

20.1.0

アスター

0.8.1

アストゥンパース

1.6.3

非同期ジェネレータ

1.10

属性

20.3.0

バックコール

0.2.0

bcryptの

3.2.0

bleach

3.3.0

ボト3

1.16.7

ボトコア

1.19.7

ボトルネック

1.3.2

cachetools

4.2.2

認証

2020.12.5

cffi

1.14.5

chardet

4.0.0

打ち鳴らす

5.0

クリック

7.1.2

クラウドピクルス

1.6.0

cmdstanpyさん

0.9.68

コンフィグパーサー

5.0.1

変換日

2.3.2

cryptography

3.4.7

サーマルサイクラー

0.10.0

シトン

0.29.23

Databricks 自動 ml ランタイム

0.1.0

Databricks の CLI

0.14.3

DBUSPython

1.2.16

デコレータ

5.0.6

defusedxml

0.7.1

ディル

0.3.2

ディスクキャッシュ

5.2.1

ディストリビューション

0.3.2

ディストリビューション情報

0.23Ubuntuの1

エントリポイント

0.3

エフェム

4.0.0.2

facets-概要

1.0.0

ファイルロック

3.0.12

flask

1.1.2

フラットバッファ

1.12

FSSPECの

0.9.0

未来

0.18.2

ガスト

0.4.0

ギットDB

4.0.7

ギットパイソン

3.1.12

グーグル認証

1.22.1

グーグル認証 - oauthlib

0.4.2

グーグルパスタ

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5pyさん

3.1.0

イスラム暦コンバータ

2.2.1

休日

0.11.2

Horovod

0.22.1

htmlmin

0.1.12

イドナ

2.10

イメージハッシュ

4.2.1

importlib-metadata

3.10.0

ipykernel(英語)

5.3.4

アイパイソン

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

イソデート

0.6.0

それは危険です

1.1.0

ジェダイ

0.17.2

ジンジャ2

2.11.3

jmespath

0.10.0

joblib

1.0.1

ジョブリブスパーク

0.3.0

jsonschema(jsonschema)

3.2.0

jupyter-クライアント

6.1.12

ジュピターコア

4.7.1

jupyterlab-pygmentsの

0.1.2

jupyterlab-widgetsの

1.0.0

keras

2.6.0

Keras- 前処理

1.1.2

キウイソルバー

1.3.1

koalas

1.8.1

韓国の太陰暦

0.2.1

LightGBM

3.1.1

LLVMLITEの

0.37.0

ルナカレンダー

0.0.9

アオザメ

1.1.3

Markdown

3.3.3

マークアップセーフ

1.1.1

Matplotlib

3.4.2

行方不明いいえ

0.5.0

ミスチューン

0.8.4

MLeap

0.17.0

mlflow-skinny

1.20.2

マルチメソッド

1.4

NBクライアント

0.5.3

NBコンバート

6.0.7

NBフォーマット

5.1.3

ネスト-アシンシオ

1.5.1

ネットワークX

2.5

nltk

3.6.1

notebook

6.3.0

ナンバ

0.54.0

numpy

1.19.2

OAuthlib

3.1.0

オプトアインサム

3.3.0

packaging

20.9

pandas

1.2.4

pandasプロファイリング

3.0.0

pandocフィルター

1.4.3

パラミコ

2.7.2

パルソ

0.7.0

patsy

0.5.1

petastorm

0.11.2

pexpect

4.8.0

ピク

0.12.0

ピクルシェア

0.7.5

8.2.0

21.0.1

Plotly

5.1.0

prometheus-クライアント

0.10.1

プロンプトツールキット

3.0.17

Prophet

1.0.1

protobuf

3.17.2

psutil の

5.8.0

サイコップ2

2.8.5

PTYPROCESSの

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1モジュール

0.2.8

pycparser

2.20

ピダンティック

1.8.2

ピグメント

2.8.1

PyGObject

3.36.0

ピミーウス

0.5.11

PyNaClの

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

ピルシステント

0.17.3

ピスタン

2.19.1.1

Python-apt

2.0.0 + ubuntu0.20.4.6

Python-dateutil

2.8.1

Pythonエディタ

1.0.4

pytz

2020.5

Pyウェーブレット

1.1.1

PyYAML (英語)

5.4.1

ピズム

20.0.0

正規表現

2021.4.4

要求

2.25.1

リクエスト-oauthlib

1.3.0

リクエスト-unixsocket

0.2.0

rsa

4.7.2

S3トランスファー

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

シーボーン

0.11.1

Send2Trash(センド2トラッシュ)

1.5.0

setuptools

52.0.0

setuptools-git

1.2

シャップ

0.39.0

シンプルJSON

3.17.2

six

1.15.0

スライサー

0.0.7

SMMAPの

3.0.5

スパークテンソルフローディストリビューター

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

0.8.7

Unicodeで絡み合った

0.1.0

持久力

6.2.0

TensorBoard

2.6.0

TensorBoard-data-server

0.6.1

TensorBoard-plugin-wit

1.8.0

テンソルフロー-CPU

2.6.0

テンソルフロー推定器

2.6.0

タームカラー

1.1.0

テルミナド

0.9.4

テストパス

0.4.4

threadpoolctl

2.1.0

トーチ

1.9.0+CPU

トーチビジョン

0.10.0+CPU

竜巻

6.1

tqdm

4.59.0

トレイトレット

5.0.5

タイピング拡張

3.7.4.3

ujson

4.0.2

無人アップグレード

0.1

urllib3 の

1.25.11

virtualenv

20.4.1

ビジョン

0.7.1

WC幅

0.2.5

webencodings

0.5.1

websocket-クライアント

0.57.0

ヴェルクツォイク

1.0.1

0.36.2

widgetsnb拡張機能

3.5.1

ラッピング

1.12.1

XGBoost

1.4.2

ジップ

3.4.1

Python ライブラリ on GPU クラスター

ライブラリ

バージョン

ライブラリ

バージョン

ライブラリ

バージョン

absl-py

0.11.0

アンテルゴス Linux

2015.10 (ISOローリング)

appdirs (英語)

1.4.4

アルゴン2-CFFI

20.1.0

アスター

0.8.1

アストゥンパース

1.6.3

非同期ジェネレータ

1.10

属性

20.3.0

バックコール

0.2.0

bcryptの

3.2.0

bleach

3.3.0

ボト3

1.16.7

ボトコア

1.19.7

ボトルネック

1.3.2

cachetools

4.2.2

認証

2020.12.5

cffi

1.14.5

chardet

4.0.0

打ち鳴らす

5.0

クリック

7.1.2

クラウドピクルス

1.6.0

cmdstanpyさん

0.9.68

コンフィグパーサー

5.0.1

変換日

2.3.2

cryptography

3.4.7

サーマルサイクラー

0.10.0

シトン

0.29.23

Databricks 自動 ml ランタイム

0.1.0

Databricks の CLI

0.14.3

DBUSPython

1.2.16

デコレータ

5.0.6

defusedxml

0.7.1

ディル

0.3.2

ディスクキャッシュ

5.2.1

ディストリビューション

0.3.2

ディストリビューション情報

0.23Ubuntuの1

エントリポイント

0.3

エフェム

4.0.0.2

facets-概要

1.0.0

ファイルロック

3.0.12

flask

1.1.2

フラットバッファ

1.12

FSSPECの

0.9.0

未来

0.18.2

ガスト

0.4.0

ギットDB

4.0.7

ギットパイソン

3.1.12

グーグル認証

1.22.1

グーグル認証 - oauthlib

0.4.2

グーグルパスタ

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5pyさん

3.1.0

イスラム暦コンバータ

2.2.1

休日

0.11.2

Horovod

0.22.1

htmlmin

0.1.12

イドナ

2.10

イメージハッシュ

4.2.1

importlib-metadata

3.10.0

ipykernel(英語)

5.3.4

アイパイソン

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

イソデート

0.6.0

それは危険です

1.1.0

ジェダイ

0.17.2

ジンジャ2

2.11.3

jmespath

0.10.0

joblib

1.0.1

ジョブリブスパーク

0.3.0

jsonschema(jsonschema)

3.2.0

jupyter-クライアント

6.1.12

ジュピターコア

4.7.1

jupyterlab-pygmentsの

0.1.2

jupyterlab-widgetsの

1.0.0

keras

2.6.0

Keras- 前処理

1.1.2

キウイソルバー

1.3.1

koalas

1.8.1

韓国の太陰暦

0.2.1

LightGBM

3.1.1

LLVMLITEの

0.37.0

ルナカレンダー

0.0.9

アオザメ

1.1.3

Markdown

3.3.3

マークアップセーフ

1.1.1

Matplotlib

3.4.2

行方不明いいえ

0.5.0

ミスチューン

0.8.4

MLeap

0.17.0

mlflow-skinny

1.20.2

マルチメソッド

1.4

NBクライアント

0.5.3

NBコンバート

6.0.7

NBフォーマット

5.1.3

ネスト-アシンシオ

1.5.1

ネットワークX

2.5

nltk

3.6.1

notebook

6.3.0

ナンバ

0.54.0

numpy

1.19.2

OAuthlib

3.1.0

オプトアインサム

3.3.0

packaging

20.9

pandas

1.2.4

pandasプロファイリング

3.0.0

pandocフィルター

1.4.3

パラミコ

2.7.2

パルソ

0.7.0

patsy

0.5.1

petastorm

0.11.2

pexpect

4.8.0

ピク

0.12.0

ピクルシェア

0.7.5

8.2.0

21.0.1

Plotly

5.1.0

プロンプトツールキット

3.0.17

Prophet

1.0.1

protobuf

3.17.2

psutil の

5.8.0

サイコップ2

2.8.5

PTYPROCESSの

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1モジュール

0.2.8

pycparser

2.20

ピダンティック

1.8.2

ピグメント

2.8.1

PyGObject

3.36.0

ピミーウス

0.5.11

PyNaClの

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

ピルシステント

0.17.3

ピスタン

2.19.1.1

Python-apt

2.0.0 + ubuntu0.20.4.6

Python-dateutil

2.8.1

Pythonエディタ

1.0.4

pytz

2020.5

Pyウェーブレット

1.1.1

PyYAML (英語)

5.4.1

ピズム

20.0.0

正規表現

2021.4.4

要求

2.25.1

リクエスト-oauthlib

1.3.0

リクエスト-unixsocket

0.2.0

rsa

4.7.2

S3トランスファー

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

シーボーン

0.11.1

Send2Trash(センド2トラッシュ)

1.5.0

setuptools

52.0.0

setuptools-git

1.2

シャップ

0.39.0

シンプルJSON

3.17.2

six

1.15.0

スライサー

0.0.7

SMMAPの

3.0.5

スパークテンソルフローディストリビューター

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

0.8.7

Unicodeで絡み合った

0.1.0

持久力

6.2.0

TensorBoard

2.6.0

TensorBoard-data-server

0.6.1

TensorBoard-plugin-wit

1.8.0

TensorFlow

2.6.0

テンソルフロー推定器

2.6.0

タームカラー

1.1.0

テルミナド

0.9.4

テストパス

0.4.4

threadpoolctl

2.1.0

トーチ

1.9.0 + CU111

トーチビジョン

0.10.0+CU111

竜巻

6.1

tqdm

4.59.0

トレイトレット

5.0.5

タイピング拡張

3.7.4.3

ujson

4.0.2

無人アップグレード

0.1

urllib3 の

1.25.11

virtualenv

20.4.1

ビジョン

0.7.1

WC幅

0.2.5

webencodings

0.5.1

websocket-クライアント

0.57.0

ヴェルクツォイク

1.0.1

0.36.2

widgetsnb拡張機能

3.5.1

ラッピング

1.12.1

XGBoost

1.4.2

ジップ

3.4.1

Python モジュールを含む Spark パッケージ

Spark パッケージ

Python モジュール

バージョン

graphframes

graphframes

0.8.1-db3-spark3.1

R ライブラリ

R ライブラリは、Databricks Runtime9.1LTS の R ライブラリ と同じです。

Java and Scala ライブラリ (Scala 2.12 クラスター)

Databricks Runtime 9.1 LTS の Java および Scala ライブラリに加えて、Databricks Runtime 9.1 LTS MLには以下の JAR が含まれています。

CPU クラスター

グループID

アーティファクト ID

バージョン

com.typesafe.akka (英語)

アッカ-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

XGBOOST4Jのspark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflowの

mlflow-クライアント

1.20.2

org.mlflowの

mlflow-spark

1.20.2

組織Scala-lang.modules

Scala-java8-compat_2.12

0.8.0

org.tensorflowの

spark-tensorflow-connector_2.12

1.15.0

GPU クラスター

グループID

アーティファクト ID

バージョン

com.typesafe.akka (英語)

アッカ-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

XGBOOST4Jのgpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflowの

mlflow-クライアント

1.20.2

org.mlflowの

mlflow-spark

1.20.2

組織Scala-lang.modules

Scala-java8-compat_2.12

0.8.0

org.tensorflowの

spark-tensorflow-connector_2.12

1.15.0