Databricks データサイエンス・機械学習機能

Databricks には、生データ取り込みから特徴量エンジニアリング、モデルトレーニング、デプロイ、本番運用モニタリングに至るまで、データサイエンスと機械学習 (ML) の完全なライフサイクルに対応する統合プラットフォームがあります。Databricks は一般的なオープンソース機械学習フレームワークと統合され、エンタープライズグレードのガバナンス、可観測性、運用ツール（総称して MLOps）を追加します。

このページには、ワークフローステージ別に整理された主要なデータサイエンスおよび機械学習機能がリストされています。

探索的データ解析

Databricks は、データサイエンティスト向けにインタラクティブな、共同作業可能な、AI を活用したツールを提供することで、探索的データ解析（EDA）を簡素化しています。データサイエンティストは、自然言語チャット、UI、またはコードを使用してデータを探索でき、リアルタイムの共同編集とGitベースのコード共有の両方を使用してコラボレーションできます。Genie Codeは、完全に自動化されたEDAを実行したり、インタラクティブなアシスタントとして機能したりできます。

カテゴリー	機能
ユーザーインターフェース	ノートブックは、EDAにおける探索、視覚化、ドキュメント化のための共同作業スペースを提供します。ダッシュボードは、SQLと視覚化に基づくEDAを提供します。 Genieチャットには、データに関する質問をするための自然言語インターフェースがあります。
コラボレーション	ノートブック、ダッシュボード、およびその他のワークスペース資産はすべて共有可能であり、ワークスペースのアクセス許可によって管理されています。Databricksノートブックを使用した共同作業を参照してください。ノートブックとGit フォルダーは、Gitベースのバージョン管理と共同作業を可能にします。
AIアシスタント	Genie Codeは、完全に自動化されたEDAを実行したり、インタラクティブなアシスタントとして機能したりできます。 AIコーディングアシスタント向けエージェントスキルは、Databricks向けにコードを記述するサードパーティ製アシスタントのパフォーマンスを高めます。

カテゴリー	機能
ユーザーインターフェース	ノートブックは、EDAにおける探索、視覚化、ドキュメント化のための共同作業スペースを提供します。ダッシュボードは、SQLと視覚化に基づくEDAを提供します。 Genieチャットには、データに関する質問をするための自然言語インターフェースがあります。
コラボレーション	ノートブック、ダッシュボード、およびその他のワークスペース資産はすべて共有可能であり、ワークスペースのアクセス許可によって管理されています。Databricksノートブックを使用した共同作業を参照してください。ノートブックとGit フォルダーは、Gitベースのバージョン管理と共同作業を可能にします。
AIアシスタント	Genie Codeは、完全に自動化されたEDAを実行したり、インタラクティブなアシスタントとして機能したりできます。 AIコーディングアシスタント向けエージェントスキルは、Databricks向けにコードを記述するサードパーティ製アシスタントのパフォーマンスを高めます。

特徴量の準備と提供

Databricks は、データおよび機械学習ワークロードのガバナンスを統合することで、機械学習のデータを簡素化します。きめ細かいアクセス制御を備えたUnity Catalogで管理されるすべてのデータにより、組織に合わせてデータエンジニアリングと機械学習の境界を調整できます。データは、Lakeflow pipelines などのデータエンジニアリングツールを使用して、機械学習向けに準備できます。機能は、機能の単一の管理されたソースを使用して、バッチおよびリアルタイムのサービングの両方に対応するFeature Storeで管理されます。

Genie Code は、Unity Catalog を参照して関連テーブルを検出し、特徴変換を提案し、取り込みおよび特徴量パイプラインのコードを生成することで、データディスカバリーと準備を加速します。

特徴量タイプ	機能
バッチ特徴量	Unity Catalog の特徴量テーブルには、自動リネージとガバナンスを備えた事前計算されたバッチ特徴量が格納されます。チームは、最初からパイプラインを再構築するのではなく、既存の機能を見つけて再利用します。 Feature Views は、バッチまたはリアルタイムの特徴量計算に使用できる特徴量を定義するための新しい API を提供します。
リアルタイムの特徴量	事前計算された特徴量については、オンライン Feature Store がリアルタイムモデルサービングのユースケース向けに特徴量テーブルを提供します。特徴化入力が提供時にのみ利用可能な場合、Feature Serving には、特徴量テーブルを補完するオンデマンドの特徴量計算があります。機能は、事前に計算されるのではなく、関数として定義されます。 Feature Views は、バッチまたはリアルタイムの特徴量計算に使用できる特徴量を定義するための新しい API を提供します。
非構造化データ	AI Search では、非構造化データを提供し、セマンティック検索を実行できます。

特徴量タイプ	機能
バッチ特徴量	Unity Catalog の特徴量テーブルには、自動リネージとガバナンスを備えた事前計算されたバッチ特徴量が格納されます。チームは、最初からパイプラインを再構築するのではなく、既存の機能を見つけて再利用します。 Feature Views は、バッチまたはリアルタイムの特徴量計算に使用できる特徴量を定義するための新しい API を提供します。
リアルタイムの特徴量	事前計算された特徴量については、オンライン Feature Store がリアルタイムモデルサービングのユースケース向けに特徴量テーブルを提供します。特徴化入力が提供時にのみ利用可能な場合、Feature Serving には、特徴量テーブルを補完するオンデマンドの特徴量計算があります。機能は、事前に計算されるのではなく、関数として定義されます。 Feature Views は、バッチまたはリアルタイムの特徴量計算に使用できる特徴量を定義するための新しい API を提供します。
非構造化データ	AI Search では、非構造化データを提供し、セマンティック検索を実行できます。

機械学習モデルのトレーニング

Databricks には、機械学習およびディープラーニングモデルのトレーニングのための柔軟なツールがあります。事前構成済みでカスタマイズ可能な環境では、カスタムの機械学習ライブラリを使用できます。また、サーバレスCPUおよびGPUアクセラレーテッドコンピュートリソースは、オンデマンドでのスケールアップおよびスケールアウトを可能にします。Genie Codeは、インテリジェントなAutoMLを提供し、自然言語リクエストを受け取り、フィーチャーエンジニアリング、トレーニング、チューニング、評価、デプロイメントのための完全なマルチノートブックワークフローを構築します。

カテゴリー	機能
機械学習の種類	Databricksは、以下を含むあらゆる種類の機械学習をサポートしています。従来型機械学習：scikit-learn、XGBoost、LightGBM、Apache Spark MLlib、およびその他の機械学習フレームワークによる教師あり学習と教師なし学習ディープラーニング：PyTorch、TensorFlow、およびHugging Face Transformers を使用したニューラルネットワークのトレーニング（複数のGPUにわたる分散トレーニングを含む）ハイパーパラメーターチューニング： OptunaやRayなどのツールを使用した、アルゴリズムとハイパーパラメーター空間にわたる自動検索生成AIについては、「Databricksの生成AI機能」を参照してください。
コンピュート	サーバレスコンピュートは、インタラクティブなノートブックやスケジュールされたワークフローで即座に起動し、自動的にスケーリングされ、クラスター管理は不要です。CPUクラスターとGPUアクセラレーテッドクラスターの両方をサポートしています。クラシックコンピュートは、CPUとGPUの両方のワークロードに対して、単一マシンおよびクラスター管理を提供します。
環境とライブラリ	のサーバレスコンピュート環境は、機械学習用に完全にカスタマイズ可能な基本環境を提供します。サーバレスGPUコンピュートでは、AI RuntimeはGPUベースのトレーニングと推論用に事前に構成された環境を提供します。クラシックコンピュートでは、Databricks Runtime for 機械学習は、主要な機械学習ライブラリがプリインストールされ、一緒にテストされている、CPU および GPU アクセラレーション対応クラスターの両方に対応した事前構成済みのクラスター環境を提供します。
AIコーディングアシスタント	Genie Code は Unity Catalog のデータを検出し、機械学習ノートブックを生成し、パイプラインのトラブルシューティングができます。 AIコーディングアシスタント向けエージェントスキルは、Databricks向けにコードを記述するサードパーティ製アシスタントのパフォーマンスを高めます。

カテゴリー	機能
機械学習の種類	Databricksは、以下を含むあらゆる種類の機械学習をサポートしています。従来型機械学習：scikit-learn、XGBoost、LightGBM、Apache Spark MLlib、およびその他の機械学習フレームワークによる教師あり学習と教師なし学習ディープラーニング：PyTorch、TensorFlow、およびHugging Face Transformers を使用したニューラルネットワークのトレーニング（複数のGPUにわたる分散トレーニングを含む）ハイパーパラメーターチューニング： OptunaやRayなどのツールを使用した、アルゴリズムとハイパーパラメーター空間にわたる自動検索生成AIについては、「Databricksの生成AI機能」を参照してください。
コンピュート	サーバレスコンピュートは、インタラクティブなノートブックやスケジュールされたワークフローで即座に起動し、自動的にスケーリングされ、クラスター管理は不要です。CPUクラスターとGPUアクセラレーテッドクラスターの両方をサポートしています。クラシックコンピュートは、CPUとGPUの両方のワークロードに対して、単一マシンおよびクラスター管理を提供します。
環境とライブラリ	のサーバレスコンピュート環境は、機械学習用に完全にカスタマイズ可能な基本環境を提供します。サーバレスGPUコンピュートでは、AI RuntimeはGPUベースのトレーニングと推論用に事前に構成された環境を提供します。クラシックコンピュートでは、Databricks Runtime for 機械学習は、主要な機械学習ライブラリがプリインストールされ、一緒にテストされている、CPU および GPU アクセラレーション対応クラスターの両方に対応した事前構成済みのクラスター環境を提供します。
AIコーディングアシスタント	Genie Code は Unity Catalog のデータを検出し、機械学習ノートブックを生成し、パイプラインのトラブルシューティングができます。 AIコーディングアシスタント向けエージェントスキルは、Databricks向けにコードを記述するサードパーティ製アシスタントのパフォーマンスを高めます。

エクスペリメントの追跡および管理

Databricks マネージド MLflow は、再現性があり、監査可能な機械学習の開発の基盤を提供します。Unity Catalog と Git との連携により、データおよびコード資産の追跡とリネージが提供されます。レジストリ内の各モデルバージョンは、それを作成したトレーニング実行、データセット、環境、およびGitコミットにリンクされており、デプロイされたモデルの完全な監査証跡を提供します。

カテゴリー	機能
実験の追跡	MLflowトラッキングは、すべてのトレーニング実行に対してパラメーター、メトリクス、およびアーティファクトをログに記録します。MLflow UIで実行を比較し、最適なパフォーマンスの構成を特定してください。
モデルレジストリ	Unity Catalogのモデルは、Unity Catalogと統合されたMLflowモデルレジストリを提供します。バージョン管理されたモデルアーティファクトは、ライフサイクルエイリアス（`Staging`、`Production`）、アクセス制御、リネージ、およびワークスペース間の共有で管理されます。
再現性	ノートブックとコードは、Databricks Git フォルダーを使用してバージョン管理し、任意のGitプロバイダーと統合できます。

カテゴリー	機能
実験の追跡	MLflowトラッキングは、すべてのトレーニング実行に対してパラメーター、メトリクス、およびアーティファクトをログに記録します。MLflow UIで実行を比較し、最適なパフォーマンスの構成を特定してください。
モデルレジストリ	Unity Catalogのモデルは、Unity Catalogと統合されたMLflowモデルレジストリを提供します。バージョン管理されたモデルアーティファクトは、ライフサイクルエイリアス（`Staging`、`Production`）、アクセス制御、リネージ、およびワークスペース間の共有で管理されます。
再現性	ノートブックとコードは、Databricks Git フォルダーを使用してバージョン管理し、任意のGitプロバイダーと統合できます。

モデルのデプロイとサービング

Databricks はバッチ推論とリアルタイムサービングの両方に対応しています。バッチ推論は大規模なデータセットにモデルを効率的に適用し、一方、リアルタイムサービングは低遅延のAPIエンドポイントとしてモデルを提供します。Genie Codeは、モデルデプロイメントのコード生成と、モデルサービングエンドポイントの課題およびパフォーマンスの診断の両方が可能です。

提供パターン	機能
バッチ推論	`ai_query` は、モデルサービングエンドポイントとしてデプロイされたカスタムモデルに効率的なバッチ推論を提供します。 Apache Spark UDF を使用したカスタムコード (例) や `mlflow.pyfunc` を、バッチ推論に利用することもできます。
リアルタイムサービング	Model Servingは、サーバレスのオートスケールを備えた、低レイテンシーで高可用性のマネージド REST エンドポイントを提供します。あらゆる機械学習フレームワークの CPU および GPU サービングをサポートしており、Genie を使用してサービングエンドポイントを評価し、トラブルシューティングすることができます。
SQLネイティブな推論	AI 関数は、SQL からアクセス可能な機械学習予測を、予測、異常検出、ドライバー分析などに提供し、Python やモデルのデプロイは必要ありません。カスタムモデルの場合、AI関数「`ai_query`」は、Model Serving エンドポイントを利用した効率的なバッチ推論を提供します。

提供パターン	機能
バッチ推論	`ai_query` は、モデルサービングエンドポイントとしてデプロイされたカスタムモデルに効率的なバッチ推論を提供します。 Apache Spark UDF を使用したカスタムコード (例) や `mlflow.pyfunc` を、バッチ推論に利用することもできます。
リアルタイムサービング	Model Servingは、サーバレスのオートスケールを備えた、低レイテンシーで高可用性のマネージド REST エンドポイントを提供します。あらゆる機械学習フレームワークの CPU および GPU サービングをサポートしており、Genie を使用してサービングエンドポイントを評価し、トラブルシューティングすることができます。
SQLネイティブな推論	AI 関数は、SQL からアクセス可能な機械学習予測を、予測、異常検出、ドライバー分析などに提供し、Python やモデルのデプロイは必要ありません。カスタムモデルの場合、AI関数「`ai_query`」は、Model Serving エンドポイントを利用した効率的なバッチ推論を提供します。

評価とモニタリング

Databricks は、トレーニング向けの柔軟な評価と、本番運用向けの継続的なモニタリングを提供します。Unity Catalogで管理されている推論テーブルへのリアルタイムサービングログ、およびデータ品質モニタリングにより、カスタムのメトリクス、ダッシュボード、アラートによるモニタリングが提供されます。

カテゴリー	機能
評価	MLflow 機械学習評価は、MLflow にログするメトリクスを定義するために使用でき、またはMLflow トラッキングは、カスタムフレームワークを使用して計算されたメトリクスをログに記録できます。 Genie Code は、評価メトリクスの選択および評価コードの記述を支援します。
予測の記録	推論テーブルは、サービング要求と応答をログに記録することで、モニタリング、アナリティクス、トレーニングセットの構築を可能にします。
モニタリングおよびアラート	データ品質モニタリングは、組み込みの異常検出とデータプロファイリングにより、データ品質、ドリフト、カスタムメトリクスを追跡します。データ品質モニタリングは、モニタリングUIを提供し、モニタリングテーブルからカスタムダッシュボードを作成できます。インシデントを迅速にエスカレートできるように、異常検出のアラートを設定することができます。

カテゴリー	機能
評価	MLflow 機械学習評価は、MLflow にログするメトリクスを定義するために使用でき、またはMLflow トラッキングは、カスタムフレームワークを使用して計算されたメトリクスをログに記録できます。 Genie Code は、評価メトリクスの選択および評価コードの記述を支援します。
予測の記録	推論テーブルは、サービング要求と応答をログに記録することで、モニタリング、アナリティクス、トレーニングセットの構築を可能にします。
モニタリングおよびアラート	データ品質モニタリングは、組み込みの異常検出とデータプロファイリングにより、データ品質、ドリフト、カスタムメトリクスを追跡します。データ品質モニタリングは、モニタリングUIを提供し、モニタリングテーブルからカスタムダッシュボードを作成できます。インシデントを迅速にエスカレートできるように、異常検出のアラートを設定することができます。

MLOpsおよびガバナンス

Databricks は、機械学習オペレーション (MLOps) およびガバナンス用の完全なツールスイートを提供します。の「MLOps Stacks」は、Infrastructure-as-Code を使用して、開発から本番運用への自動化された再現可能な昇格を可能にするテンプレートを提供します。データ、特徴量、モデル、およびエンドポイントは、Unity Catalog および AI Gateway によって完全に管理されます。

カテゴリー	機能
機械学習のCI/CD	宣言型自動化バンドル上に構築されたMLOpsスタックは、機械学習インフラストラクチャとワークフローのコードベースの管理とデプロイを提供します。これには、トレーニング、評価、およびデプロイメントを自動化するためのCI/CDテンプレートが含まれます。
ワークフローオーケストレーション	LakeFlow Jobs は、マルチステップの機械学習ワークフローを、スケジュールまたはトリガーされたパイプラインとしてオーケストレーションします。
データとモデル資産のガバナンス	Unity Catalogは、データ、フィーチャー、および登録済みモデルの統合ガバナンスを提供します。詳細なアクセス制御、リネージトラッキング、および監査ログは、すべての資産に適用されます。
モデルエンドポイントガバナンス	AI Gateway は、モデルエンドポイントに、レート制限、使用状況の追跡、およびペイロードのログ記録を含む一元的なガバナンスとモニタリングを提供します。

カテゴリー	機能
機械学習のCI/CD	宣言型自動化バンドル上に構築されたMLOpsスタックは、機械学習インフラストラクチャとワークフローのコードベースの管理とデプロイを提供します。これには、トレーニング、評価、およびデプロイメントを自動化するためのCI/CDテンプレートが含まれます。
ワークフローオーケストレーション	LakeFlow Jobs は、マルチステップの機械学習ワークフローを、スケジュールまたはトリガーされたパイプラインとしてオーケストレーションします。
データとモデル資産のガバナンス	Unity Catalogは、データ、フィーチャー、および登録済みモデルの統合ガバナンスを提供します。詳細なアクセス制御、リネージトラッキング、および監査ログは、すべての資産に適用されます。
モデルエンドポイントガバナンス	AI Gateway は、モデルエンドポイントに、レート制限、使用状況の追跡、およびペイロードのログ記録を含む一元的なガバナンスとモニタリングを提供します。

オープンソースのサポート

Databricks は、オープンソースの機械学習エコシステムを全面的にサポートします。

Databricks では、scikit-learn、XGBoost、LightGBM、PyTorch、TensorFlow、Hugging Face Transformers、Ray など、任意のオープンソース機械学習フレームワークを使用できます。MLflow または独自のツールは、Databricks の外部でエクスポートおよび実行可能なオープンな形式で、モデル成果物を保存できます。

MLflowは、Databricksによって開発されたオープンソースであり、1万以上の組織で利用されています。エクスペリメント追跡データ、モデルアーティファクト、およびパイプライン定義はオープンフォーマットで保存されています。

データとAIガバナンスは、オープンソースのUnity Catalog APIs に基づいて構築されており、データストレージはオープンなDelta Lake フォーマットに基づいています。特徴データとトレーニングデータセットは、オープンでポータブルなファイルに残ります。

探索的データ解析​

特徴量の準備と提供​

機械学習モデルのトレーニング​

エクスペリメントの追跡および管理​

モデルのデプロイとサービング​

評価とモニタリング​

MLOpsおよびガバナンス​

オープンソースのサポート​

その他のリソース​