Databricks データサイエンス・機械学習機能
Databricks には、生データ取り込みから特徴量エンジニアリング、モデルトレーニング、デプロイ、本番運用モニタリングに至るまで、データサイエンスと機械学習 (ML) の完全なライフサイクルに対応する統合プラットフォームがあります。Databricks は一般的なオープンソース機械学習フレームワークと統合され、エンタープライズグレードのガバナンス、可観測性、運用ツール(総称して MLOps)を追加します。
このページには、ワークフロー ステージ別に整理された主要なデータサイエンスおよび機械学習機能がリストされています。
探索的データ解析
Databricks は、データサイエンティスト向けにインタラクティブな、共同作業可能な、AI を活用したツールを提供することで、探索的データ解析(EDA)を簡素化しています。データサイエンティストは、自然言語チャット、UI、またはコードを使用してデータを探索でき、リアルタイムの共同編集とGitベースのコード共有の両方を使用してコラボレーションできます。Genie Codeは、完全に自動化されたEDAを実行したり、インタラクティブなアシスタントとして機能したりできます。
カテゴリー | 機能 |
|---|---|
ユーザーインターフェース | |
コラボレーション |
|
AIアシスタント |
|
特徴量の準備と提供
Databricks は、データと機械学習ワークロードのガバナンスを統合することで、機械学習向けデータを簡素化します。きめ細かいアクセス制御を備えたUnity Catalogでデータがすべて管理されているため、組織に合わせてデータエンジニアリングと機械学習の境界を調整できます。データは、LakeFlow Spark宣言型パイプライン などのデータエンジニアリング ツール を使用して、機械学習用に準備できます。特徴量は、バッチおよびリアルタイムのサービングに対応したFeature Storeで管理され、特徴量の単一の統制された信頼できる唯一のソースとなります。
Genie Code は、Unity Catalog を参照して関連テーブルを検出し、特徴変換を提案し、取り込みおよび特徴量パイプラインのコードを生成することで、データディスカバリーと準備を加速します。
特徴量タイプ | 機能 |
|---|---|
バッチ特徴量 | |
リアルタイムの特徴量 | 宣言型特徴量は、バッチまたはリアルタイムの特徴量計算に利用できる特徴量を定義するための新しいAPIを提供します。 |
非構造化データ | AI Search では、非構造化データを提供し、セマンティック検索を実行できます。 |
機械学習モデルのトレーニング
Databricks には、機械学習およびディープラーニングモデルのトレーニングのための柔軟なツールがあります。事前構成済みでカスタマイズ可能な環境では、カスタムの機械学習ライブラリを使用できます。また、サーバレスCPUおよびGPUアクセラレーテッドコンピュートリソースは、オンデマンドでのスケールアップおよびスケールアウトを可能にします。Genie Codeは、インテリジェントなAutoMLを提供し、自然言語リクエストを受け取り、フィーチャーエンジニアリング、トレーニング、チューニング、評価、デプロイメントのための完全なマルチノートブックワークフローを構築します。
カテゴリー | 機能 |
|---|---|
機械学習の種類 | Databricksは、以下を含むあらゆる種類の機械学習をサポートしています。
生成AIについては、「Databricksの生成AI機能」を参照してください。 |
コンピュート |
|
環境とライブラリ |
|
AIコーディングアシスタント |
|
エクスペリメントの追跡および管理
Databricks マネージド MLflow は、再現性があり、監査可能な機械学習の開発の基盤を提供します。Unity Catalog と Git との連携により、データおよびコード資産の追跡とリネージが提供されます。レジストリ内の各モデルバージョンは、それを作成したトレーニング実行、データセット、環境、およびGitコミットにリンクされており、デプロイされたモデルの完全な監査証跡を提供します。
カテゴリー | 機能 |
|---|---|
実験の追跡 | MLflowトラッキングは、すべてのトレーニング実行に対してパラメーター、メトリクス、およびアーティファクトをログに記録します。MLflow UIで実行を比較し、最適なパフォーマンスの構成を特定してください。 |
モデルレジストリ | Unity Catalogのモデルは、Unity Catalogと統合されたMLflowモデルレジストリを提供します。バージョン管理されたモデルアーティファクトは、ライフサイクルエイリアス( |
再現性 | ノートブックとコードは、Databricks Git フォルダーを使用してバージョン管理し、任意のGitプロバイダーと統合できます。 |
モデルのデプロイとサービング
Databricks は バッチ推論 と リアルタイム サービング の両方に対応しています。バッチ推論は大規模なデータセットにモデルを効率的に適用し、一方、リアルタイムサービングは低遅延のAPIエンドポイントとしてモデルを提供します。Genie Codeは、モデルデプロイメントのコード生成と、モデルサービングエンドポイントの課題およびパフォーマンスの診断の両方が可能です。
提供パターン | 機能 |
|---|---|
バッチ推論 |
|
リアルタイムサービング | Model Servingは、サーバレスのオートスケールを備えた、低レイテンシーで高可用性のマネージド REST エンドポイントを提供します。あらゆる機械学習フレームワークの CPU および GPU サービングをサポートしており、Genie を使用してサービング エンドポイントを評価し、トラブルシューティングすることができます。 |
SQLネイティブな推論 |
|
評価とモニタリング
Databricks は、トレーニング向けの柔軟な評価と、本番運用向けの継続的なモニタリングを提供します。Unity Catalogで管理されている推論テーブルへのリアルタイムサービングログ、およびデータ品質モニタリングにより、カスタムのメトリクス、ダッシュボード、アラートによるモニタリングが提供されます。
カテゴリー | 機能 |
|---|---|
評価 |
|
予測の記録 | 推論テーブルは、サービング要求と応答をログに記録することで、モニタリング、アナリティクス、トレーニングセットの構築を可能にします。 |
モニタリングおよびアラート |
|
MLOpsおよびガバナンス
Databricks は、機械学習オペレーション (MLOps) およびガバナンス用の完全なツール スイートを提供します。の「MLOps Stacks」は、Infrastructure-as-Code を使用して、開発から本番運用への自動化された再現可能な昇格を可能にするテンプレートを提供します。データ、特徴量、モデル、およびエンドポイントは、Unity Catalog および AI Gateway によって完全に管理されます。
カテゴリー | 機能 |
|---|---|
機械学習のCI/CD | 宣言型自動化バンドル 上に構築されたMLOpsスタック は、機械学習インフラストラクチャとワークフローのコードベースの管理とデプロイを提供します。これには、トレーニング、評価、およびデプロイメントを自動化するためのCI/CDテンプレートが含まれます。 |
ワークフローオーケストレーション | LakeFlow Jobs は、マルチステップの機械学習ワークフローを、スケジュールまたはトリガーされたパイプラインとしてオーケストレーションします。 |
データとモデル資産のガバナンス | Unity Catalogは、データ、フィーチャー、および登録済みモデルの統合ガバナンスを提供します。詳細なアクセス制御、リネージトラッキング、および監査ログは、すべての資産に適用されます。 |
モデルエンドポイントガバナンス | AI Gateway は、モデルエンドポイントに、レート制限、使用状況の追跡、およびペイロードのログ記録を含む一元的なガバナンスとモニタリングを提供します。 |
オープンソースのサポート
Databricks は、オープンソースの機械学習エコシステムを全面的にサポートします。
Databricks では、scikit-learn、XGBoost、LightGBM、PyTorch、TensorFlow、Hugging Face Transformers、Ray など、任意のオープンソース機械学習フレームワークを使用できます。MLflow または独自のツールは、Databricks の外部でエクスポートおよび実行可能なオープンな形式で、モデル成果物を保存できます。
MLflowは、Databricksによって開発されたオープンソースであり、1万以上の組織で利用されています。エクスペリメント追跡データ、モデル アーティファクト、およびパイプライン定義はオープンフォーマットで保存されています。
データとAIガバナンスは、オープンソースのUnity Catalog APIs に基づいて構築されており、データストレージはオープンなDelta Lake フォーマットに基づいています。特徴データとトレーニングデータセットは、オープンでポータブルなファイルに残ります。