概念:Databricks を活用するデータサイエンスと機械学習
データサイエンスと機械学習(DS および ML)は、データから知見を抽出し、予測モデルを構築します。データサイエンスと機械学習には、インタラクティブな探索とモデリング、および自動本番運用システムの両方が含まれています。従来の機械学習には、分類、回帰、異常検出、予測、レコメンデーションなどの手法が含まれます。
現代のディープラーニングと生成AIの手法は、技術的には機械学習の一種です。このセクションではディープラーニングについて説明します。生成AIの詳細については、「概念: Databricksにおける生成AI」を参照してください。
機械学習ライフサイクル
機械学習のライフサイクルは、生データから本番運用モデルまで、そしてモニタリングと再トレーニングを通して再び戻るエンドツーエンドの過程を網羅しています。主な段階は次のとおりです。
- ユースケースの範囲を定める には、予測ターゲット、成功メトリクス、および本番運用要件を定義します。
- モデリングの前に、データ分布、予測シグナル、データ品質に関する問題を理解するために、探索的データ解析(EDA)を実行してください。
- データと特徴量を準備します。これらはFeature Store内で管理されます。
- モデルをトレーニングし、エクスペリメントを追跡する 、分析とデプロイのためにエクスペリメントのメタデータを記録します。
- ホールドアウトデータおよびステークホルダーの基準に対して、モデルの品質を評価します。
- 本番運用に移行する前に、モデルを登録、ステージング、テストしてください。
- リアルタイムエンドポイントまたはバッチ推論ジョブに本番運用デプロイ
- 変化するデータやユーザー行動にモデルを適応させるための監視と再トレーニング。
各段階のガイドについては、機械学習ライフサイクルを参照してください。
AI支援による開発および運用
Databricksには、ノートブックとワークスペース全体に統合されたAIアシスタントであるGenie Codeがあります。企業コンテキストの専門知識を活用して、開発、デバッグ、運用に利用します。「データサイエンスにGenie Codeを使用する」を参照してください。
ワークフローのすべてのステップでGenie Codeを使用できます。
- ワークスペースおよび Unity Catalog で関連するモデル、データ、特徴量を見つけるには、Genie チャットから開始します。
- 「Genie Codeを使用する」ことで、特徴抽出、モデルのトレーニングとチューニング、評価、デプロイのパイプラインをプロトタイプできます。
- Genie Code を使用してモデルサービングエンドポイントを分析し、本番運用における問題を診断および調査します。
Databricks上で機械学習パイプラインを開発および保守するのに、サードパーティ製のコーディングツールも利用できます。AIコーディングアシスタント向けエージェントスキルを参照してください。
機械学習プラットフォームとは?
MLプラットフォームは、生データから本番運用モデルまで、機械学習のライフサイクル全体をサポートする、統合されたインフラストラクチャ、ツール、およびガバナンス層です。適切に設計された機械学習プラットフォームは、データエンジニアリング、対話型データサイエンス、および本番運用機械学習を単一の統制されたシステムに統合します。
主なコンポーネントは次のとおりです。
- ファイル、テーブル、処理パイプライン、および Feature Store などのデータ アセット
- シンプルなコラボレーションとAI支援を備えた、ノートブックやビジュアライゼーションなどの実験ツール
- カスタマイズ可能な環境と柔軟なコンピュートリソースを備えたトレーニングインフラストラクチャ
- バッチおよびリアルタイムサービングのための、本番運用ダッシュボードとアラートを備えたデプロイおよびモニタリングインフラストラクチャ
- オーケストレーション、CI/CD、リネージ、アクセス管理、および監査ログ向けのMLOpsおよびガバナンスツール
主要なガバナンス機能には、以下が含まれます:
- データと機械学習のための統合ガバナンス。詳細については、「 Unity Catalog とは」を参照してください。
- モデルエンドポイントの統合ガバナンス。エンドポイントを提供する Unity AI Gatewayを参照してください。
- 統一されたセキュリティアプローチ。詳細については、Databricks AI セキュリティを参照してください。
- データと機械学習ツールの統合管理管理の詳細をご覧ください。
以下もご覧ください:Databricks のデータサイエンスおよび機械学習機能 および Databricks のアーキテクチャ。
機械学習、ディープラーニング、GenAIの比較
機械学習(ML)、ディープラーニング(DL)、および生成AI(GenAI)の間の境界は、曖昧になりがちです。このガイドでは機械学習およびディープラーニングに焦点を当てていますが、以下のプラットフォーム機能は、これら3つのパラダイムすべてをサポートしています。
-
Model Serving は、リアルタイムおよびバッチ推論の両方に対応した従来の機械学習、ディープラーニング、カスタム生成AIモデルをサポートします。
-
ai_queryは、すべての3つのパラダイムにおいて、SQLクエリとバッチ推論ワークロードをサポートしています。 -
GPU対応のDatabricks Runtime for Machine Learningは、3つのパラダイムすべてでトレーニングとファインチューニングをサポートします。
-
MLflowエクスペリメントのトラッキングは、3つのパラダイムすべてにおいて実行とエクスペリメントを追跡します。
-
Databricks AI Searchは、3つのパラダイムすべてに非構造化データを提供します。
詳細を表示
- 機械学習のライフサイクル:ステージとベストプラクティス
- Databricks データサイエンスおよび機械学習機能 - ワークフロー段階別の Databricks 機械学習機能
- Databricks の AI のユースケース、顧客、およびその他のリソース