メインコンテンツまでスキップ

Databricks データサイエンス・機械学習機能

Databricks には、生データ取り込みから特徴量エンジニアリング、モデルトレーニング、デプロイ、本番運用モニタリングに至るまで、データサイエンスと機械学習 (ML) の完全なライフサイクルに対応する統合プラットフォームがあります。Databricks は一般的なオープンソース機械学習フレームワークと統合され、エンタープライズグレードのガバナンス、可観測性、運用ツール(総称して MLOps)を追加します。

このページには、ワークフロー ステージ別に整理された主要なデータサイエンスおよび機械学習機能がリストされています。

探索的データ解析

Databricks は、データサイエンティスト向けにインタラクティブな、共同作業可能な、AI を活用したツールを提供することで、探索的データ解析(EDA)を簡素化しています。データサイエンティストは、自然言語チャット、UI、またはコードを使用してデータを探索でき、リアルタイムの共同編集とGitベースのコード共有の両方を使用してコラボレーションできます。Genie Codeは、完全に自動化されたEDAを実行したり、インタラクティブなアシスタントとして機能したりできます。

カテゴリー

機能

ユーザーインターフェース

  • ノートブックは、EDAにおける探索、視覚化、ドキュメント化のための共同作業スペースを提供します。
  • ダッシュボードは、SQLと視覚化に基づくEDAを提供します。
  • Genieチャットには、データに関する質問をするための自然言語インターフェースがあります。

コラボレーション

AIアシスタント

特徴量の準備と提供

Databricks は、データと機械学習ワークロードのガバナンスを統合することで、機械学習向けデータを簡素化します。きめ細かいアクセス制御を備えたUnity Catalogでデータがすべて管理されているため、組織に合わせてデータエンジニアリングと機械学習の境界を調整できます。データは、LakeFlow Spark宣言型パイプライン などのデータエンジニアリング ツール を使用して、機械学習用に準備できます。特徴量は、バッチおよびリアルタイムのサービングに対応したFeature Storeで管理され、特徴量の単一の統制された信頼できる唯一のソースとなります。

Genie Code は、Unity Catalog を参照して関連テーブルを検出し、特徴変換を提案し、取り込みおよび特徴量パイプラインのコードを生成することで、データディスカバリーと準備を加速します。

特徴量タイプ

機能

バッチ特徴量

  • Unity Catalog の特徴量テーブルには、自動リネージとガバナンスを備えた事前計算されたバッチ特徴量が格納されます。チームは、最初からパイプラインを再構築するのではなく、既存の機能を見つけて再利用します。
  • 宣言型特徴量は、バッチまたはリアルタイムの特徴量計算に利用できる特徴量を定義するための新しいAPIを提供します。

リアルタイムの特徴量

  • 事前計算された特徴量については、オンライン Feature Store がリアルタイム モデルサービングのユースケース向けに特徴量テーブルを提供します。
  • 特徴化入力が提供時にのみ利用可能な場合、Feature Serving には、特徴量テーブルを補完するオンデマンドの特徴量計算があります。機能は、事前に計算されるのではなく、関数として定義されます。
  • 宣言型特徴量は、バッチまたはリアルタイムの特徴量計算に利用できる特徴量を定義するための新しいAPIを提供します。

非構造化データ

AI Search では、非構造化データを提供し、セマンティック検索を実行できます。

機械学習モデルのトレーニング

Databricks には、機械学習およびディープラーニングモデルのトレーニングのための柔軟なツールがあります。事前構成済みでカスタマイズ可能な環境では、カスタムの機械学習ライブラリを使用できます。また、サーバレスCPUおよびGPUアクセラレーテッドコンピュートリソースは、オンデマンドでのスケールアップおよびスケールアウトを可能にします。Genie Codeは、インテリジェントなAutoMLを提供し、自然言語リクエストを受け取り、フィーチャーエンジニアリング、トレーニング、チューニング、評価、デプロイメントのための完全なマルチノートブックワークフローを構築します。

カテゴリー

機能

機械学習の種類

Databricksは、以下を含むあらゆる種類の機械学習をサポートしています。

  • 従来型機械学習:scikit-learn、XGBoost、LightGBM、Apache Spark MLlib、およびその他の機械学習フレームワークによる教師あり学習と教師なし学習
  • ディープラーニング:PyTorch、TensorFlow、およびHugging Face Transformers を使用したニューラルネットワークのトレーニング(複数のGPUにわたる分散トレーニングを含む)
  • ハイパーパラメーターチューニング: OptunaやRayなどのツールを使用した、アルゴリズムとハイパーパラメーター空間にわたる自動検索

生成AIについては、「Databricksの生成AI機能」を参照してください。

コンピュート

  • サーバレスコンピュートは、インタラクティブなノートブックやスケジュールされたワークフローで即座に起動し、自動的にスケーリングされ、クラスター管理は不要です。CPUクラスターとGPUアクセラレーテッドクラスターの両方をサポートしています。
  • クラシックコンピュートは、CPUとGPUの両方のワークロードに対して、単一マシンおよびクラスター管理を提供します。

環境とライブラリ

AIコーディングアシスタント

エクスペリメントの追跡および管理

Databricks マネージド MLflow は、再現性があり、監査可能な機械学習の開発の基盤を提供します。Unity Catalog と Git との連携により、データおよびコード資産の追跡とリネージが提供されます。レジストリ内の各モデルバージョンは、それを作成したトレーニング実行、データセット、環境、およびGitコミットにリンクされており、デプロイされたモデルの完全な監査証跡を提供します。

カテゴリー

機能

実験の追跡

MLflowトラッキングは、すべてのトレーニング実行に対してパラメーター、メトリクス、およびアーティファクトをログに記録します。MLflow UIで実行を比較し、最適なパフォーマンスの構成を特定してください。

モデルレジストリ

Unity Catalogのモデルは、Unity Catalogと統合されたMLflowモデルレジストリを提供します。バージョン管理されたモデルアーティファクトは、ライフサイクルエイリアス(StagingProduction)、アクセス制御、リネージ、およびワークスペース間の共有で管理されます。

再現性

ノートブックとコードは、Databricks Git フォルダーを使用してバージョン管理し、任意のGitプロバイダーと統合できます。

モデルのデプロイとサービング

Databricks は バッチ推論リアルタイム サービング の両方に対応しています。バッチ推論は大規模なデータセットにモデルを効率的に適用し、一方、リアルタイムサービングは低遅延のAPIエンドポイントとしてモデルを提供します。Genie Codeは、モデルデプロイメントのコード生成と、モデルサービングエンドポイントの課題およびパフォーマンスの診断の両方が可能です。

提供パターン

機能

バッチ推論

リアルタイムサービング

Model Servingは、サーバレスのオートスケールを備えた、低レイテンシーで高可用性のマネージド REST エンドポイントを提供します。あらゆる機械学習フレームワークの CPU および GPU サービングをサポートしており、Genie を使用してサービング エンドポイントを評価し、トラブルシューティングすることができます

SQLネイティブな推論

  • AI 関数は、SQL からアクセス可能な機械学習予測を、予測、異常検出、ドライバー分析などに提供し、Python やモデルのデプロイは必要ありません。
  • カスタムモデルの場合、AI関数 ai_query は、Model Serving エンドポイントを利用した効率的なバッチ推論を提供します。

評価とモニタリング

Databricks は、トレーニング向けの柔軟な評価と、本番運用向けの継続的なモニタリングを提供します。Unity Catalogで管理されている推論テーブルへのリアルタイムサービングログ、およびデータ品質モニタリングにより、カスタムのメトリクス、ダッシュボード、アラートによるモニタリングが提供されます。

カテゴリー

機能

評価

  • MLflow 機械学習評価は、MLflow にログするメトリクスを定義するために使用でき、またはMLflow トラッキングは、カスタムフレームワークを使用して計算されたメトリクスをログに記録できます。
  • Genie Code は、評価メトリクスの選択および評価コードの記述を支援します。

予測の記録

推論テーブルは、サービング要求と応答をログに記録することで、モニタリング、アナリティクス、トレーニングセットの構築を可能にします。

モニタリングおよびアラート

MLOpsおよびガバナンス

Databricks は、機械学習オペレーション (MLOps) およびガバナンス用の完全なツール スイートを提供します。の「MLOps Stacks」は、Infrastructure-as-Code を使用して、開発から本番運用への自動化された再現可能な昇格を可能にするテンプレートを提供します。データ、特徴量、モデル、およびエンドポイントは、Unity Catalog および AI Gateway によって完全に管理されます。

カテゴリー

機能

機械学習のCI/CD

宣言型自動化バンドル 上に構築されたMLOpsスタック は、機械学習インフラストラクチャとワークフローのコードベースの管理とデプロイを提供します。これには、トレーニング、評価、およびデプロイメントを自動化するためのCI/CDテンプレートが含まれます。

ワークフローオーケストレーション

LakeFlow Jobs は、マルチステップの機械学習ワークフローを、スケジュールまたはトリガーされたパイプラインとしてオーケストレーションします。

データとモデル資産のガバナンス

Unity Catalogは、データ、フィーチャー、および登録済みモデルの統合ガバナンスを提供します。詳細なアクセス制御、リネージトラッキング、および監査ログは、すべての資産に適用されます。

モデルエンドポイントガバナンス

AI Gateway は、モデルエンドポイントに、レート制限、使用状況の追跡、およびペイロードのログ記録を含む一元的なガバナンスとモニタリングを提供します。

オープンソースのサポート

Databricks は、オープンソースの機械学習エコシステムを全面的にサポートします。

Databricks では、scikit-learn、XGBoost、LightGBM、PyTorch、TensorFlow、Hugging Face Transformers、Ray など、任意のオープンソース機械学習フレームワークを使用できます。MLflow または独自のツールは、Databricks の外部でエクスポートおよび実行可能なオープンな形式で、モデル成果物を保存できます。

MLflowは、Databricksによって開発されたオープンソースであり、1万以上の組織で利用されています。エクスペリメント追跡データ、モデル アーティファクト、およびパイプライン定義はオープンフォーマットで保存されています。

データとAIガバナンスは、オープンソースのUnity Catalog APIs に基づいて構築されており、データストレージはオープンなDelta Lake フォーマットに基づいています。特徴データとトレーニングデータセットは、オープンでポータブルなファイルに残ります。

詳細を表示