Databricks とは
Databricks は、エンタープライズレベルのデータ分析と AI ソリューションを大規模に構築、デプロイ、共有、保守するための、統合されたオープンな分析プラットフォームです。 Databricksデータインテリジェンスプラットフォームは、クラウド アカウントのクラウド ストレージおよびセキュリティと統合し、ユーザーに代わってクラウド インフラストラクチャを管理およびデプロイします。
データインテリジェンスプラットフォームはどのように機能しますか?
Databricksは、AI データレイクハウス で生成 を使用して、データの一意のセマンティクスを理解します。その後、パフォーマンスを自動的に最適化し、ビジネスニーズに合わせてインフラストラクチャを管理します。
自然言語処理によってあなたのビジネス言語を学習するため、ご自身の言葉で質問することでデータを検索して発見することができます。 自然言語アシスタンスは、コードの記述、エラーのトラブルシューティング、ドキュメント内の回答の検索に役立ちます。
最後に、データと AI アプリケーションは、強力なガバナンスとセキュリティに頼ることができます。 データのプライバシーと IP 制御を損なうことなく、OpenAIなどのAPIをインテグレーションできます。
Databricks は何に使用されますか?
Databricks には、データのソース を 1 つのプラットフォームに接続して、 BI から生成AIまでのソリューションを使用してデータセットを処理、保存、共有、分析、モデル化、収益化するのに役立つツールが用意されています。
Databricksワークスペースには、以下のようなほとんどのデータタスク用の統一されたインターフェイスとツールが用意されています。
- 特にETLにおけるデータ処理のスケジューリングと管理
- ダッシュボードとビジュアライゼーションの生成
- セキュリティ、ガバナンス、高可用性、およびディザスタリカバリの管理
- データの検出、アノテーション、探索
- 機械学習(ML)モデリング、トラッキング、モデルサービング
- 生成AI ソリューション
オープンソースとの管理された統合
Databricks は、オープンソースコミュニティに強くコミットしています。 Databricksでは、Databricks Runtimeリリースでオープンソースのインテグレーションのアップデートを管理します。 次のテクノロジーは、Databricks の従業員によって最初に作成されたオープンソース プロジェクトです。
ツールとプログラムによるアクセス
Databricksは、これらのテクノロジーを統合して拡張し、最適なパフォーマンスと使いやすさを実現する以下のような独自のツールを多数用意しています。
ワークスペースUIに加え、以下のツールを使用して、Databricksをプログラムで操作できます。
- REST API
- CLI
- Terraform
DatabricksはAWSとどのように連携しますか?
Databricksプラットフォームアーキテクチャは、以下の2つの主要な要素で構成されます。
- Databricksがプラットフォームとサービスをデプロイ、構成、管理するために使用しているインフラストラクチャ。
- Databricksとお客様が共同で管理する、お客様所有のインフラストラクチャ。
多くのエンタープライズデータ企業とは異なり、Databricksでは、プラットフォームを使用するためにデータを独自のストレージシステムに移行する必要はありません。代わりに、Databricksプラットフォームとお客様のクラウドアカウント間にセキュアなインテグレーションを構成することでDatabricksワークスペースを構築します。Databricksはお客様アカウントのクラウドリソースを使用してコンピュートクラスターをデプロイし、オブジェクトストレージやその他の顧客管理の統合サービスでデータを処理および格納します。
Unity Catalogはこの関係をさらに拡張し、Databricks内から使い慣れたSQL構文を使用してデータにアクセスするための権限を管理できるようにします。
Databricksワークスペースは、最もセキュリティを重視する世界最大規模の企業のセキュリティおよびネットワーク要件を満たしています。Databricksを使用すると、新しいユーザーがプラットフォームを簡単に使い始めることができます。これにより、経験豊富なデータチーム、運用チーム、セキュリティチームが必要とするカスタマイズやコントロールが制限されることなく、クラウドインフラストラクチャの操作に伴う多くの負担や懸念が解消されます。
Databricks の一般的なユースケースは何ですか?
Databricksのユースケースは、プラットフォームで処理されるデータや、業務の中核部分としてデータを扱う従業員のペルソナと同じくらい多様です。以下のユースケースでは、組織全体のユーザーがDatabricksを活用して、重要な業務や意思決定を推進するデータの処理、格納、分析に不可欠なタスクを実行する方法について説明します。
エンタープライズデータレイクハウスの構築
データレイクハウスは、エンタープライズデータウェアハウスとデータレイクの長所を組み合わせて、エンタープライズデータソリューションを高速化、簡素化、統合します。 データエンジニア、 data scientists、アナリスト、および本番運用システムはすべて、データレイクハウスを単一の真実のソースとして使用できるため、一貫性のあるデータにタイムリーにアクセスでき、多くの分散データシステムの構築、保守、同期の複雑さが軽減されます。 データレイクハウスとはを参照してください。
ETLとデータエンジニアリング
ダッシュボードの作成であれ、人工知能アプリケーションのパワーアップであれ、データエンジニアリングは、データが利用可能かつクリーンで、効率的なディスカバリーと利用を可能にするデータモデルに保存されるようにすることで、データセントリックな企業のバックボーンを提供することができます。Databricksは、Apache SparkのパワーをDelta Lakeやカスタムツールと組み合わせて、比類のないETL(抽出、変換、ロード)エクスペリエンスを提供します。SQL、Python、Scalaを使用してETLロジックを作成し、わずか数回のクリックでスケジュールされたジョブのデプロイメントをオーケストレーションすることができます。
DLT は、データセット間の依存関係をインテリジェントに管理し、本番運用インフラストラクチャを自動的にデプロイおよびスケーリングすることで、 ETL をさらに簡素化し、仕様に従ってデータをタイムリーかつ正確に配信できるようにします。
Databricksには、クラウドオブジェクト ストレージとデータレイクからデータ レイクに段階的かつべき等にデータを読み込むための効率的でスケーラブルなツールである など、Auto Loader データ取り込み 用のカスタム ツールが多数用意されています。
機械学習、AI、データサイエンス
Databricks RuntimeMachine LearningMLflow は、Databricks 機械学習の や など、 エンジニアやdata scientists MLエンジニアのニーズに合わせた一連のツールを使用して、プラットフォームのコア機能を拡張します。
大規模言語モデルと生成AI
Databricks Runtime for Machine Learning には、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合できる Hugging Face Transformers などのライブラリが含まれています。 Databricks MLflow の統合により、トランスフォーマー パイプライン、モデル、処理コンポーネントと共に MLflow 追跡サービスを簡単に使用できます。 さらに、John Snow Labs などのパートナーのOpenAI モデルやソリューションを Databricks ワークフローに統合できます。
Databricks を使用すると、特定のタスクに合わせてデータの LLM をカスタマイズできます。 Hugging FaceやDeepSpeedなどのオープンソースツールのサポートにより、基礎となるLLMを効率的に取得し、独自のデータでトレーニングを開始することで、ドメインやワークロードに対してより高い精度を持つことができます。
さらに、Databricks は、SQL データアナリストが OpenAI を含むデータパイプラインやワークフロー内で直接 LLM モデルにアクセスするために使用できる AI 関数を提供します。を使用したデータへの の適用AIDatabricksAI Functions を参照してください。
データウェアハウジング, アナリティクス, BI
Databricks は、ユーザーフレンドリーな UI とコスト効率の高いコンピュート リソース、無限にスケーラブルで手頃な価格のストレージを組み合わせて、分析クエリを実行するための強力なプラットフォームを提供します。 管理者は、スケーラブルなコンピュート クラスターをウェアハウスとして構成SQL、エンドユーザーがクラウド上での作業の複雑さを心配することなくクエリを実行できるようにします。SQL ユーザーは、 SQL クエリ エディター またはノートブックを使用して、レイクハウス内のデータに対してクエリを実行できます。 ノートブック は、SQL に加えて Python、R、Scalaをサポートしており、ユーザーは、マークダウンで記述されたリンク、画像、コメントと共に、従来のダッシュボード で利用可能なものと同じ ビジュアライゼーション を埋め込むことができます。
データガバナンスと安全なデータ共有
Unity Catalogは、データレイクハウスに統合されたデータガバナンスモデルを提供します。クラウド管理者はUnity Catalogの大まかなアクセス制御権限を構成して統合し、Databricks管理者はチームや個人の権限を管理できます。権限は、ユーザーフレンドリーなUIまたはSQL構文のいずれかを介してアクセス制御リスト(ACL)で管理されます。これにより、データベース管理者は、クラウドネイティブのIDアクセス管理(IAM)やネットワーキングを使用する必要なく、データへのアクセスを簡単に保護することできます。
Unity Catalog により、安全なアナリティクス クラウド上での運用が簡単になり、プラットフォームの管理者とエンドユーザーの両方に必要な再教育やスキルアップを制限する責任分担が可能になります。 「Unity Catalog とは」を参照してください。
レイクハウスを使用すると、テーブルやビューへのクエリ アクセスを許可するのと同じくらい簡単に、組織内でのデータ共有が可能になります。 セキュリティで保護された環境の外部で共有するために、Unity Catalog には マネージド バージョンの Delta Sharing が用意されています。
DevOps、CI/CD、タスクのオーケストレーション
ETL パイプライン、MLモデル、アナリティクスダッシュボードの開発ライフサイクルには、それぞれ独自の課題があります。Databricks では、すべてのユーザーが 1 つのデータソースを活用できるため、重複する作業やレポートの同期がずれていることが削減されます。 さらに、バージョン管理、自動化、スケジューリング、コードデプロイ、本番運用リソースのための一連の共通ツールを提供することで、モニタリング、オーケストレーション、運用のオーバーヘッドを簡素化できます。 ジョブは 、Databricks ノートブック、SQL クエリ、およびその他の任意のコードをスケジュールします。 Git フォルダー を使用すると、Databricks プロジェクトを多くの一般的な Git プロバイダーと同期できます。 ツールの完全な概要については、「 ローカル開発ツール」を参照してください。
リアルタイム分析とストリーミング分析
Databricks は Apache Spark 構造化ストリーミングを利用して、ストリーミング データと増分データ変更を処理します。 構造化ストリーミングは Delta Lakeと緊密に統合されており、これらのテクノロジは DLT と Auto Loaderの両方の基盤を提供します。 「Databricks でのストリーミング」を参照してください。