Databricks 上の大規模言語モデル (LLM)

Databricks を使用すると、公開されている大規模な言語モデルに簡単にアクセスして構築できます。

Databricks Runtime for Machine Learning には Hugging Face トランスフォーマーや LangChain などのライブラリが含まれており、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合できます。 ここから、Databricks プラットフォーム機能を活用し、独自のデータを使用して LLM を微調整し、ドメイン パフォーマンスを向上させることができます。

さらに、Databricks には、SQL ユーザーが AI 関数を使用して Azure OpenAI や OpenAI などの LLM にアクセスし、エクスペリメントするための組み込み機能が用意されています。

Hugging Face トランスフォーマー

Databricks の Hugging Face トランスフォーマーを使用すると、自然言語処理 (NLP) バッチ アプリケーションをスケールアウトし、大規模な言語モデル アプリケーション用にモデルを微調整できます。

Hugging Face transformers ライブラリは、 Databricks Runtime LTS ML以降にプレインストールされています。一般的なNLPモデルの多くはGPUハードウェアで最適に機能するため、CPUでの使用に特別に最適化されたモデルを使用しない限り、最新のGPUハードウェアを使用して最高のパフォーマンスが得られる可能性があります。

LangChain

LangChain は実験的な MLflow フレーバーとして利用できるため、LangChain のお客様は Databricks 環境から直接 MLflow の堅牢なツールとエクスペリメント追跡機能を活用できます。

LangChainは、大規模な言語モデル(LLM)を利用し、それらを外部データと組み合わせて、LLMのトレーニングコンテキストを増やすアプリケーションの作成を支援するように設計されたソフトウェアフレームワークです。

Databricks Runtime 機械学習には、 Databricks Runtime 13.1 機械学習以降のlangchainが含まれています。

Databricks 固有の LangChain 統合について説明します。

AI機能

プレビュー

この機能はパブリックプレビュー段階です。

AI 関数は 、SQL ユーザーが次の操作を実行できるようにする組み込みの SQL 関数です。

  • Databricks 基盤モデルAPIsを使用して、会社のデータに関するさまざまなタスクを完了します。

  • OpenAI から GPT-4 などの外部モデルにアクセスし、それらを体験します。

  • Databricks モデルサービング エンドポイント (SQL クエリー) によってホストされるクエリー モデル。