Databricks Runtime 9.1 LTS for Machine Learning
Databricks はこのイメージをリリースし、2021 年 9 月に長期サポート (LTS) を宣言しました。
Databricks Runtime 9.1 LTS for Machine Learning は、Databricks Runtime 9.1 LTSに基づく機械学習とデータサイエンスのためのすぐに使える環境を提供します。Databricks Runtime ML には、TensorFlow、PyTorch、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。Databricks Runtime ML には、機械学習パイプラインを自動的にトレーニングするツールである AutoML が含まれています。Databricks Runtime ML は、 Horovodを使用した分散ディープラーニング トレーニングもサポートしています。
LTS は、このバージョンが 長期サポート 中であることを意味します。「Databricks Runtime LTS バージョンのライフサイクル」を参照してください。
Databricks RuntimeMLクラスターの作成手順など、詳細については、「AI での と機械学習Databricks 」を参照してください。
これらのリリースノートには、このリリースの時点で Google Cloud で利用できない機能への参照が含まれている場合があります。
サポート終了 (EoS) に達した Databricks Runtime バージョンのリリースノートを表示するには、「 サポート終了 Databricks Runtime リリースノート」を参照してください。 EoS Databricks Runtime のバージョンは廃止されており、更新されない可能性があります。
新機能と改善点
AutoML
Databricks Runtime 9.1 LTS ML以降では、次の機能強化が利用可能です。
AutoML は、サンプリングによってより大きなデータセットをサポートします
AutoML では、メモリ制約を超える可能性のあるデータセットがサンプリングされるようになったため、メモリ不足エラーのリスクを減らして、より大きなデータセットで実行できるようになりました。詳細については、「 大規模なデータセットのサンプリング」を参照してください。
AutoML は、セマンティック タイプに基づいて列を前処理します
AutoML は、 Spark データ型または Pandas データ型とは異なるセマンティック タイプを持つ特定の列を検出します。 その後、AutoML は、検出されたセマンティック タイプに基づいてデータの前処理ステップを変換して適用します。具体的には、AutoML は次の変換を実行します。
- 日付またはタイムスタンプのデータを表す文字列列と整数列は、タイムスタンプタイプに変換されます。
- 数値データを表す文字列列は、数値型に変換されます。
AutoML で生成されたノートブックの機能強化
日付列とタイムスタンプ列の前処理ステップ が databricks-automl-runtime
パッケージに組み込まれ、AutoML トレーニングによって生成されるノートブックが簡素化されました。 databricks-automl-runtime
は Databricks ランタイム 9.1 LTS ML以降に含まれており、 PyPI でも利用できます。
特徴量ストア
Databricks Runtime 9.1 LTS ML以降では、次の機能強化が利用可能です。
- TrainingSet を作成するときに、教師なし学習アプリケーションをサポートするように
label=None
を設定できるようになりました。 - 1 つの
FeatureLookup
で複数のフィーチャを指定できるようになりました。 - 特徴量テーブルのカスタム パスを指定できるようになりました。
create_feature_table()
のpath
パラメーターを使用します。デフォルトはデータベースの場所です。 - 新しくサポートされた PySpark データ型: ArrayType と ShortType。
mlflowの
次の機能強化は、 Databricks Runtime 9.1 LTS MLに含まれている Mlflow バージョン 1.20.2 以降で使用できます。
- scikit-learn の自動ロギングで、
sklearn.metrics.mean_squared_error
などの scikit-learn 評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。 - PySpark ML の自動ログ記録では、
Evaluator.evaluate()
などのモデル評価 API が呼び出されるたびに、トレーニング後のメトリクスが記録されるようになりました。 mlflow.*.log_model
またmlflow.*.save_model``pip_requirements
引数とextra_pip_requirements
引数を持つようになったため、ログに記録または保存するモデルの pip 要件を直接指定できます。mlflow.*.log_model
また、mlflow.*.save_model
は、現在のソフトウェア環境に基づいて、モデルの PIP 要件を自動的に推論してログに記録または保存できるようになりました。stdMetrics
エントリは、 PySpark CrossValidator の自動ロギング中にトレーニング メトリクスとして記録されるようになりました。- PyTorch Lightning の自動ログ記録で分散実行がサポートされるようになりました。
Databricks Autologging (パブリック プレビュー)
Databricks Autologging パブリック プレビューが新しいリージョンに拡張されました。Databricks Autologging は、 Databricksでの機械学習トレーニング セッションの自動エクスペリメント追跡を提供するノーコード ソリューションです。 Databricks Autologgingを使用すると、さまざまな一般的な機械学習ライブラリからモデルをトレーニングするときに、モデル パラメーター、メトリクス、ファイル、リネージ情報が自動的にキャプチャされます。トレーニング セッションは、 MLflow 追跡実行として記録されます。モデルファイルも追跡されるため、MLflow Model Registryに簡単にログに記録し、MLflowモデルサービングを使用してリアルタイムスコアリングにデプロイできます。
Databricks Autologgingの詳細については、Databricks Autologgingを参照してください。
Databricks Runtime ML Python 環境の主な変更点
Python パッケージのアップグレード
- automl 1.1.1=> 1.2.1
- feature_store 0.3.3=> 0.3.4.1
- 休日 0.10.5.2 = > 0.11.2
- Keras 2.5.0 = > 2.6.0
- mlflow 1.19.0 = > 1.20.2
- petastorm0.11.1 =>0.11.2
- plotly 4.14.3 => 5.1.0
- スパークテンソルフローディストリビューター0.1.0=> 1.0.0
- sparkdl 2.2.0_db1 => 2.2.0_db3
- TensorBoard 2.5.0 = > 2.6.0
- TensorFlow 2.5.0 = > 2.6.0
Python パッケージが追加されました
- Databricks の AutoML ランタイム 0.1.0
システム環境
Databricks Runtime 9.1 LTS ML のシステム環境は、Databricks Runtime 9.1 LTS と次のように異なります。
- DBUtils : Databricks Runtime ML には、 ライブラリ ユーティリティ (dbutils.ライブラリ) (legacy) は含まれません。代わりに
%pip
コマンドを使用してください。ノートブック スコープの Python ライブラリを参照してください。 - GPU クラスターの場合、 Databricks Runtime ML には次の NVIDIA GPU ライブラリが含まれています。
- CUDA 11.0の
- cuDNN 8.1.0.77
- NCCL 2.10.3
- テンソルRT 7.2.2
ライブラリ
次のセクションでは、Databricks Runtime 9.1 LTS ML に含まれるライブラリのうち、それらとは異なるライブラリの一覧を示します Databricks Runtime 9.1 LTS に含まれています。
このセクションの内容:
トップクラスのライブラリ
Databricks Runtime 9.1 LTS ML には、次の最上位 ライブラリが含まれています。
- AutoML
- GraphFrames
- HorovodとHorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python ライブラリ
Databricks ランタイム 9.1 LTS MLは、Python パッケージ管理に Virtualenv を使用し、多くの一般的な Intelligent パッケージが含まれています。
次のセクションで指定されているパッケージに加えて、 Databricks Runtime 9.1 LTS MLには次のパッケージも含まれています。
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db3
- feature_store 0.3.4.1
- automl 1.2.1
Python ライブラリ on CPU クラスター
ライブラリ | バージョン | ライブラリ | バージョン | ライブラリ | バージョン |
---|---|---|---|---|---|
absl-py | 0.11.0 | アンテルゴス Linux | 2015.10 (ISOローリング) | appdirs (英語) | 1.4.4 |
アルゴン2-CFFI | 20.1.0 | アスター | 0.8.1 | アストゥンパース | 1.6.3 |
非同期ジェネレータ | 1.10 | 属性 | 20.3.0 | バックコール | 0.2.0 |
bcryptの | 3.2.0 | bleach | 3.3.0 | ボト3 | 1.16.7 |
ボトコア | 1.19.7 | ボトルネック | 1.3.2 | cachetools | 4.2.2 |
認証 | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
打ち鳴らす | 5.0 | クリック | 7.1.2 | クラウドピクルス | 1.6.0 |
cmdstanpyさん | 0.9.68 | コンフィグパーサー | 5.0.1 | 変換日 | 2.3.2 |
cryptography | 3.4.7 | サーマルサイクラー | 0.10.0 | シトン | 0.29.23 |
Databricks 自動 ml ランタイム | 0.1.0 | Databricks の CLI | 0.14.3 | DBUSPython | 1.2.16 |
デコレータ | 5.0.6 | defusedxml | 0.7.1 | ディル | 0.3.2 |
ディスクキャッシュ | 5.2.1 | ディストリビューション | 0.3.2 | ディストリビューション情報 | 0.23Ubuntuの1 |
エントリポイント | 0.3 | エフェム | 4.0.0.2 | facets-概要 | 1.0.0 |
ファイルロック | 3.0.12 | flask | 1.1.2 | フラットバッファ | 1.12 |
FSSPECの | 0.9.0 | 未来 | 0.18.2 | ガスト | 0.4.0 |
ギットDB | 4.0.7 | ギットパイソン | 3.1.12 | グーグル認証 | 1.22.1 |
グーグル認証 - oauthlib | 0.4.2 | グーグルパスタ | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5pyさん | 3.1.0 | イスラム暦コンバータ | 2.2.1 |
休日 | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
イドナ | 2.10 | イメージハッシュ | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel(英語) | 5.3.4 | アイパイソン | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | イソデート | 0.6.0 | それは危険です | 1.1.0 |
ジェダイ | 0.17.2 | ジンジャ2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | ジョブリブスパーク | 0.3.0 | jsonschema(jsonschema) | 3.2.0 |
jupyter-クライアント | 6.1.12 | ジュピターコア | 4.7.1 | jupyterlab-pygmentsの | 0.1.2 |
jupyterlab-widgetsの | 1.0.0 | keras | 2.6.0 | Keras- 前処理 | 1.1.2 |
キウイソルバー | 1.3.1 | koalas | 1.8.1 | 韓国の太陰暦 | 0.2.1 |
LightGBM | 3.1.1 | LLVMLITEの | 0.37.0 | ルナカレンダー | 0.0.9 |
アオザメ | 1.1.3 | Markdown | 3.3.3 | マークアップセーフ | 1.1.1 |
Matplotlib | 3.4.2 | 行方不明いいえ | 0.5.0 | ミスチューン | 0.8.4 |
MLeap | 0.17.0 | mlflow-skinny | 1.20.2 | マルチメソッド | 1.4 |
NBクライアント | 0.5.3 | NBコンバート | 6.0.7 | NBフォーマット | 5.1.3 |
ネスト-アシンシオ | 1.5.1 | ネットワークX | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | ナンバ | 0.54.0 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | オプトアインサム | 3.3.0 | packaging | 20.9 |
pandas | 1.2.4 | pandasプロファイリング | 3.0.0 | pandocフィルター | 1.4.3 |
パラミコ | 2.7.2 | パルソ | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | ピク | 0.12.0 |
ピクルシェア | 0.7.5 | 枕 | 8.2.0 | 種 | 21.0.1 |
Plotly | 5.1.0 | prometheus-クライアント | 0.10.1 | プロンプトツールキット | 3.0.17 |
Prophet | 1.0.1 | protobuf | 3.17.2 | psutil の | 5.8.0 |
サイコップ2 | 2.8.5 | PTYPROCESSの | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1モジュール | 0.2.8 | pycparser | 2.20 |
ピダンティック | 1.8.2 | ピグメント | 2.8.1 | PyGObject | 3.36.0 |
ピミーウス | 0.5.11 | PyNaClの | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | ピルシステント | 0.17.3 | ピスタン | 2.19.1.1 |
Python-apt | 2.0.0 + ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | Pythonエディタ | 1.0.4 |
pytz | 2020.5 | Pyウェーブレット | 1.1.1 | PyYAML (英語) | 5.4.1 |
ピズム | 20.0.0 | 正規表現 | 2021.4.4 | 要求 | 2.25.1 |
リクエスト-oauthlib | 1.3.0 | リクエスト-unixsocket | 0.2.0 | rsa | 4.7.2 |
S3トランスファー | 0.3.7 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
シーボーン | 0.11.1 | Send2Trash(センド2トラッシュ) | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | シャップ | 0.39.0 | シンプルJSON | 3.17.2 |
six | 1.15.0 | スライサー | 0.0.7 | SMMAPの | 3.0.5 |
スパークテンソルフローディストリビューター | 1.0.0 | sqlparse | 0.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | 表 | 0.8.7 | Unicodeで絡み合った | 0.1.0 |
持久力 | 6.2.0 | TensorBoard | 2.6.0 | TensorBoard-data-server | 0.6.1 |
TensorBoard-plugin-wit | 1.8.0 | テンソルフロー-CPU | 2.6.0 | テンソルフロー推定器 | 2.6.0 |
タームカラー | 1.1.0 | テルミナド | 0.9.4 | テストパス | 0.4.4 |
threadpoolctl | 2.1.0 | トーチ | 1.9.0+CPU | トーチビジョン | 0.10.0+CPU |
竜巻 | 6.1 | tqdm | 4.59.0 | トレイトレット | 5.0.5 |
タイピング拡張 | 3.7.4.3 | ujson | 4.0.2 | 無人アップグレード | 0.1 |
urllib3 の | 1.25.11 | virtualenv | 20.4.1 | ビジョン | 0.7.1 |
WC幅 | 0.2.5 | webencodings | 0.5.1 | websocket-クライアント | 0.57.0 |
ヴェルクツォイク | 1.0.1 | 輪 | 0.36.2 | widgetsnb拡張機能 | 3.5.1 |
ラッピング | 1.12.1 | XGBoost | 1.4.2 | ジップ | 3.4.1 |
Python ライブラリ on GPU クラスター
ライブラリ | バージョン | ライブラリ | バージョン | ライブラリ | バージョン |
---|---|---|---|---|---|
absl-py | 0.11.0 | アンテルゴス Linux | 2015.10 (ISOローリング) | appdirs (英語) | 1.4.4 |
アルゴン2-CFFI | 20.1.0 | アスター | 0.8.1 | アストゥンパース | 1.6.3 |
非同期ジェネレータ | 1.10 | 属性 | 20.3.0 | バックコール | 0.2.0 |
bcryptの | 3.2.0 | bleach | 3.3.0 | ボト3 | 1.16.7 |
ボトコア | 1.19.7 | ボトルネック | 1.3.2 | cachetools | 4.2.2 |
認証 | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
打ち鳴らす | 5.0 | クリック | 7.1.2 | クラウドピクルス | 1.6.0 |
cmdstanpyさん | 0.9.68 | コンフィグパーサー | 5.0.1 | 変換日 | 2.3.2 |
cryptography | 3.4.7 | サーマルサイクラー | 0.10.0 | シトン | 0.29.23 |
Databricks 自動 ml ランタイム | 0.1.0 | Databricks の CLI | 0.14.3 | DBUSPython | 1.2.16 |
デコレータ | 5.0.6 | defusedxml | 0.7.1 | ディル | 0.3.2 |
ディスクキャッシュ | 5.2.1 | ディストリビューション | 0.3.2 | ディストリビューション情報 | 0.23Ubuntuの1 |
エントリポイント | 0.3 | エフェム | 4.0.0.2 | facets-概要 | 1.0.0 |
ファイルロック | 3.0.12 | flask | 1.1.2 | フラットバッファ | 1.12 |
FSSPECの | 0.9.0 | 未来 | 0.18.2 | ガスト | 0.4.0 |
ギットDB | 4.0.7 | ギットパイソン | 3.1.12 | グーグル認証 | 1.22.1 |
グーグル認証 - oauthlib | 0.4.2 | グーグルパスタ | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5pyさん | 3.1.0 | イスラム暦コンバータ | 2.2.1 |
休日 | 0.11.2 | Horovod | 0.22.1 | htmlmin | 0.1.12 |
イドナ | 2.10 | イメージハッシュ | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel(英語) | 5.3.4 | アイパイソン | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | イソデート | 0.6.0 | それは危険です | 1.1.0 |
ジェダイ | 0.17.2 | ジンジャ2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | ジョブリブスパーク | 0.3.0 | jsonschema(jsonschema) | 3.2.0 |
jupyter-クライアント | 6.1.12 | ジュピターコア | 4.7.1 | jupyterlab-pygmentsの | 0.1.2 |
jupyterlab-widgetsの | 1.0.0 | keras | 2.6.0 | Keras- 前処理 | 1.1.2 |
キウイソルバー | 1.3.1 | koalas | 1.8.1 | 韓国の太陰暦 | 0.2.1 |
LightGBM | 3.1.1 | LLVMLITEの | 0.37.0 | ルナカレンダー | 0.0.9 |
アオザメ | 1.1.3 | Markdown | 3.3.3 | マークアップセーフ | 1.1.1 |
Matplotlib | 3.4.2 | 行方不明いいえ | 0.5.0 | ミスチューン | 0.8.4 |
MLeap | 0.17.0 | mlflow-skinny | 1.20.2 | マルチメソッド | 1.4 |
NBクライアント | 0.5.3 | NBコンバート | 6.0.7 | NBフォーマット | 5.1.3 |
ネスト-アシンシオ | 1.5.1 | ネットワークX | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | ナンバ | 0.54.0 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | オプトアインサム | 3.3.0 | packaging | 20.9 |
pandas | 1.2.4 | pandasプロファイリング | 3.0.0 | pandocフィルター | 1.4.3 |
パラミコ | 2.7.2 | パルソ | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | ピク | 0.12.0 |
ピクルシェア | 0.7.5 | 枕 | 8.2.0 | 種 | 21.0.1 |
Plotly | 5.1.0 | プロンプトツールキット | 3.0.17 | Prophet | 1.0.1 |
protobuf | 3.17.2 | psutil の | 5.8.0 | サイコップ2 | 2.8.5 |
PTYPROCESSの | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1モジュール | 0.2.8 | pycparser | 2.20 | ピダンティック | 1.8.2 |
ピグメント | 2.8.1 | PyGObject | 3.36.0 | ピミーウス | 0.5.11 |
PyNaClの | 1.3.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
ピルシステント | 0.17.3 | ピスタン | 2.19.1.1 | Python-apt | 2.0.0 + ubuntu0.20.4.6 |
Python-dateutil | 2.8.1 | Pythonエディタ | 1.0.4 | pytz | 2020.5 |
Pyウェーブレット | 1.1.1 | PyYAML (英語) | 5.4.1 | ピズム | 20.0.0 |
正規表現 | 2021.4.4 | 要求 | 2.25.1 | リクエスト-oauthlib | 1.3.0 |
リクエスト-unixsocket | 0.2.0 | rsa | 4.7.2 | S3トランスファー | 0.3.7 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | シーボーン | 0.11.1 |
Send2Trash(センド2トラッシュ) | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
シャップ | 0.39.0 | シンプルJSON | 3.17.2 | six | 1.15.0 |
スライサー | 0.0.7 | SMMAPの | 3.0.5 | スパークテンソルフローディストリビューター | 1.0.0 |
sqlparse | 0.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
表 | 0.8.7 | Unicodeで絡み合った | 0.1.0 | 持久力 | 6.2.0 |
TensorBoard | 2.6.0 | TensorBoard-data-server | 0.6.1 | TensorBoard-plugin-wit | 1.8.0 |
TensorFlow | 2.6.0 | テンソルフロー推定器 | 2.6.0 | タームカラー | 1.1.0 |
テルミナド | 0.9.4 | テストパス | 0.4.4 | threadpoolctl | 2.1.0 |
トーチ | 1.9.0 + CU111 | トーチビジョン | 0.10.0+CU111 | 竜巻 | 6.1 |
tqdm | 4.59.0 | トレイトレット | 5.0.5 | タイピング拡張 | 3.7.4.3 |
ujson | 4.0.2 | 無人アップグレード | 0.1 | urllib3 の | 1.25.11 |
virtualenv | 20.4.1 | ビジョン | 0.7.1 | WC幅 | 0.2.5 |
webencodings | 0.5.1 | websocket-クライアント | 0.57.0 | ヴェルクツォイク | 1.0.1 |
輪 | 0.36.2 | widgetsnb拡張機能 | 3.5.1 | ラッピング | 1.12.1 |
XGBoost | 1.4.2 | ジップ | 3.4.1 |
Python モジュールを含む Spark パッケージ
Spark パッケージ | Python モジュール | バージョン |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R ライブラリ
R ライブラリは、Databricks Runtime9.1LTS の R ライブラリ と同じです。
Java and Scala ライブラリ (Scala 2.12 クラスター)
Databricks Runtime 9.1 LTS の Java および Scala ライブラリに加えて、Databricks Runtime 9.1 LTS MLには以下の JAR が含まれています。
CPU クラスター
グループID | アーティファクト ID | バージョン |
---|---|---|
com.typesafe.akka (英語) | アッカ-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | XGBOOST4Jのspark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflowの | mlflow-クライアント | 1.20.2 |
org.mlflowの | mlflow-spark | 1.20.2 |
組織Scala-lang.modules | Scala-java8-compat_2.12 | 0.8.0 |
org.tensorflowの | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU クラスター
グループID | アーティファクト ID | バージョン |
---|---|---|
com.typesafe.akka (英語) | アッカ-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | XGBOOST4Jのgpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflowの | mlflow-クライアント | 1.20.2 |
org.mlflowの | mlflow-spark | 1.20.2 |
組織Scala-lang.modules | Scala-java8-compat_2.12 | 0.8.0 |
org.tensorflowの | spark-tensorflow-connector_2.12 | 1.15.0 |