メインコンテンツまでスキップ

概念:Databricks を活用するデータサイエンスと機械学習

データサイエンスと機械学習(DS および ML)は、データから知見を抽出し、予測モデルを構築します。データサイエンスと機械学習には、インタラクティブな探索とモデリング、および自動本番運用システムの両方が含まれています。従来の機械学習には、分類、回帰、異常検出、予測、レコメンデーションなどの手法が含まれます。

現代のディープラーニングと生成AIの手法は、技術的には機械学習の一種です。このセクションではディープラーニングについて説明します。生成AIの詳細については、「概念: Databricksにおける生成AI」を参照してください。

機械学習ライフサイクル

機械学習のライフサイクルは、生データから本番運用モデルまで、そしてモニタリングと再トレーニングを通して再び戻るエンドツーエンドの過程を網羅しています。主な段階は次のとおりです。

  1. ユースケースの範囲を定める には、予測ターゲット、成功メトリクス、および本番運用要件を定義します。
  2. モデリングの前に、データ分布、予測シグナル、データ品質に関する問題を理解するために、探索的データ解析(EDA)を実行してください。
  3. データと特徴量を準備します。これらはFeature Store内で管理されます。
  4. モデルをトレーニングし、エクスペリメントを追跡する 、分析とデプロイのためにエクスペリメントのメタデータを記録します。
  5. ホールドアウトデータおよびステークホルダーの基準に対して、モデルの品質を評価します。
  6. 本番運用に移行する前に、モデルを登録、ステージング、テストしてください。
  7. リアルタイムエンドポイントまたはバッチ推論ジョブに本番運用デプロイ
  8. 変化するデータやユーザー行動にモデルを適応させるための監視と再トレーニング。

各段階のガイドについては、機械学習ライフサイクルを参照してください。

AI支援による開発および運用

Databricksには、ノートブックとワークスペース全体に統合されたAIアシスタントであるGenie Codeがあります。企業コンテキストの専門知識を活用して、開発、デバッグ、運用に利用します。「データサイエンスにGenie Codeを使用する」を参照してください。

ワークフローのすべてのステップでGenie Codeを使用できます。

Databricks上で機械学習パイプラインを開発および保守するのに、サードパーティ製のコーディングツールも利用できます。AIコーディングアシスタント向けエージェントスキルを参照してください。

機械学習プラットフォームとは?

MLプラットフォームは、生データから本番運用モデルまで、機械学習のライフサイクル全体をサポートする、統合されたインフラストラクチャ、ツール、およびガバナンス層です。適切に設計された機械学習プラットフォームは、データエンジニアリング、対話型データサイエンス、および本番運用機械学習を単一の統制されたシステムに統合します。

主なコンポーネントは次のとおりです。

  • ファイル、テーブル、処理パイプライン、および Feature Store などのデータ アセット
  • シンプルなコラボレーションとAI支援を備えた、ノートブックやビジュアライゼーションなどの実験ツール
  • カスタマイズ可能な環境と柔軟なコンピュートリソースを備えたトレーニングインフラストラクチャ
  • バッチおよびリアルタイムサービングのための、本番運用ダッシュボードとアラートを備えたデプロイおよびモニタリングインフラストラクチャ
  • オーケストレーション、CI/CD、リネージ、アクセス管理、および監査ログ向けのMLOpsおよびガバナンスツール

主要なガバナンス機能には、以下が含まれます:

以下もご覧ください:Databricks のデータサイエンスおよび機械学習機能 および Databricks のアーキテクチャ

機械学習、ディープラーニング、GenAIの比較

機械学習(ML)、ディープラーニング(DL)、および生成AI(GenAI)の間の境界は、曖昧になりがちです。このガイドでは機械学習およびディープラーニングに焦点を当てていますが、以下のプラットフォーム機能は、これら3つのパラダイムすべてをサポートしています。

  • Model Serving は、リアルタイムおよびバッチ推論の両方に対応した従来の機械学習、ディープラーニング、カスタム生成AIモデルをサポートします。

  • ai_queryは、すべての3つのパラダイムにおいて、SQLクエリとバッチ推論ワークロードをサポートしています。

  • AI Runtime と GPU 対応の Databricks Runtime for Machine Learning は、3つのパラダイムすべてにわたってトレーニングとファインチューニングをサポートしています。

  • MLflowエクスペリメントのトラッキングは、3つのパラダイムすべてにおいて実行とエクスペリメントを追跡します。

  • Databricks AI Searchは、3つのパラダイムすべてに非構造化データを提供します。

詳細を表示