Databricksとは
September 26, 2024
Databricks は、エンタープライズレベルのデータ分析と AI ソリューションを大規模に構築、デプロイ、共有、保守するための、統合されたオープンな分析プラットフォームです。 Databricksデータインテリジェンスプラットフォームは、クラウド アカウントのクラウド ストレージおよびセキュリティと統合し、ユーザーに代わってクラウド インフラストラクチャを管理およびデプロイします。
データインテリジェンスプラットフォームの仕組み
Databricks では、生成 AI と データレイクハウス を使用して、データの固有のセマンティクスを理解します。 次に、パフォーマンスを自動的に最適化し、ビジネスニーズに合わせてインフラストラクチャを管理します。
自然言語処理によってあなたのビジネス言語を学習するため、ご自身の言葉で質問することでデータを検索して発見することができます。 自然言語アシスタンスは、コードの記述、エラーのトラブルシューティング、ドキュメント内の回答の検索に役立ちます。
最後に、データと AI アプリケーションは、強力なガバナンスとセキュリティに頼ることができます。 データのプライバシーと IP 制御を損なうことなく、OpenAIなどのAPIをインテグレーションできます。
Databricksの用途
Databricks は、BI から生成 AI までのソリューションを使用して、データセットの処理、保存、共有、分析、モデル化、収益化のために、データ ソースを 1 つのプラットフォームに接続するのに役立つツールを提供します。
Databricksワークスペースは、以下のように様々なデータタスクのための統合インタフェースとツールを提供します。
特にETLにおけるデータ処理のスケジューリングと管理
ダッシュボードとビジュアライゼーションの生成
セキュリティー、ガバナンス、高可用性、およびディザスタリカバリーの管理
データの検出、アノテーション、探索
機械学習 (ML) のモデリング、追跡、モデルサービング
生成AI ソリューション
マネージドのオープンソースとのインテグレーション
Databricks は、オープンソースコミュニティに強くコミットしています。 Databricksでは、Databricks Runtimeリリースでオープンソースのインテグレーションのアップデートを管理します。 次のテクノロジーは、Databricks の従業員によって最初に作成されたオープンソース プロジェクトです。
ツールとプログラムによるアクセス
Databricksは、これらのテクノロジーを統合して拡張し、最適なパフォーマンスと使いやすさを実現する以下のような独自のツールを多数用意しています。
ワークスペースのUIに加え、以下のツールを使用してDatabricksをプログラムで操作できます。
REST API
CLI
Terraform
DatabricksとAWSの連携
Databricksプラットフォームアーキテクチャは、以下の2つの主要な要素で構成されます。
Databricksがプラットフォームとサービスをデプロイ、構成、管理するために使用しているインフラストラクチャ。
Databricksとお客様が共同で管理する、お客様所有のインフラストラクチャ。
多くのエンタープライズデータ企業とは異なり、Databricksでは、プラットフォームを使用するためにデータを独自のストレージシステムに移行する必要はありません。代わりに、Databricksプラットフォームとお客様のクラウドアカウント間にセキュアなインテグレーションを構成することでDatabricksワークスペースを構築します。Databricksはお客様アカウントのクラウドリソースを使用してコンピュートクラスターをデプロイし、オブジェクトストレージやその他の顧客管理の統合サービスでデータを処理および格納します。
Unity Catalogはこの関係をさらに拡張し、Databricks内から使い慣れたSQL構文を使用してデータにアクセスするための権限を管理できるようにします。
Databricksワークスペースは、最もセキュリティを重視する世界最大規模の企業のセキュリティおよびネットワーク要件を満たしています。Databricksを使用すると、新しいユーザーがプラットフォームを簡単に使い始めることができます。これにより、経験豊富なデータチーム、運用チーム、セキュリティチームが必要とするカスタマイズやコントロールが制限されることなく、クラウドインフラストラクチャの操作に伴う多くの負担や懸念が解消されます。
Databricksの一般的なユースケース
Databricksのユースケースは、プラットフォームで処理されるデータや、業務の中核部分としてデータを扱う従業員のペルソナと同じくらい多様です。以下のユースケースでは、組織全体のユーザーがDatabricksを活用して、重要な業務や意思決定を推進するデータの処理、格納、分析に不可欠なタスクを実行する方法について説明します。
エンタープライズデータレイクハウスの構築
データレイクハウスは、エンタープライズデータウェアハウスとデータレイクの長所を組み合わせて、エンタープライズデータソリューションを高速化、簡素化、統合します。 データエンジニア、データサイエンティスト、アナリスト、本番運用システムはすべて、データレイクハウスを信頼できる唯一の情報源として使用できるため、一貫性のあるデータにタイムリーにアクセスでき、多くの分散データシステムの構築、保守、同期の複雑さが軽減されます。 データレイクハウスとはを参照してください。
ETLとデータエンジニアリング
ダッシュボードの作成であれ、人工知能アプリケーションのパワーアップであれ、データエンジニアリングは、データが利用可能かつクリーンで、効率的なディスカバリーと利用を可能にするデータモデルに保存されるようにすることで、データセントリックな企業のバックボーンを提供することができます。Databricksは、Apache SparkのパワーをDelta Lakeやカスタムツールと組み合わせて、比類のないETL(抽出、変換、ロード)エクスペリエンスを提供します。SQL、Python、Scalaを使用してETLロジックを作成し、わずか数回のクリックでスケジュールされたジョブのデプロイメントをオーケストレーションすることができます。
Delta Live Tablesは、データセット間の依存関係をインテリジェントに管理し、本番インフラストラクチャを自動的にデプロイおよびスケーリングすることで、ETLをさらに簡素化し、お客様の仕様に沿ったタイムリーで正確なデータの配信を保証することができます。
には、クラウド オブジェクトDatabricks ストレージとデータレイクからデータレイクハウスにデータを段階的かつべき等にロードするための効率的でスケーラブルなツールであるAuto Loader など、 データ取り込み 用のカスタム ツールが多数用意されています。
機械学習、AI、データサイエンス
Databricks 機械学習は、機械学習用の MLflow や Databricks Runtime など、データサイエンティストおよび ML エンジニアのニーズに合わせた一連のツールを使用して、プラットフォームのコア機能を拡張します。
大規模な言語モデルと生成AI
Databricks機械学習ランタイムには、既存の事前トレーニング済みモデルやその他のオープンソース ライブラリをワークフローに統合できる Hugging Face Transformers などのライブラリが含まれています。 Databricks MLflow 統合により、Transformers パイプライン、モデル、および処理コンポーネントで MLflow 追跡サービスを簡単に使用できます。 さらに、OpenAI モデルや、 John Snow Labs などのパートナーの ソリューションを Databricks ワークフローに統合できます。
Databricksを使用すると、特定のタスクに合わせてデータのLLMをカスタマイズできます。Hugging FaceやDeepSpeedなどのオープンソースツールのサポートにより、基礎となるLLMを効率的に取得し、独自のデータでトレーニングを開始することで、ドメインやワークロードに対してより高い精度を持つことができます。
さらに、Databricksは、SQLデータアナリストがデータパイプラインやワークフローからOpenAIなどのLLMモデルに直接アクセスするために使用できるAI関数を提供しています。DatabricksのAI関数を参照してください。
データウェアハウジング、分析、BI
Databricks 、ユーザーフレンドリーな UI とコスト効率の高いコンピュートリソース、そして無限にスケーラブルで手頃な価格のストレージを組み合わせて、分析クエリを実行するための強力なプラットフォームを提供します。 管理者はスケーラブルなクラウドをSQL ウェアハウスとして構成し、エンドユーザーがクラウド上で作業する際の複雑さを気にせずにクエリを実行できるようにします。 SQL ユーザーは、SQL クエリ エディターまたはノートブックを使用して、レイクハウス内のデータに対してクエリを実行できます。 ノートブックは SQL に加えて Python、R、Scala をサポートしており、ユーザーは 従来のダッシュボード で利用できるものと同じ 視覚化 を、マークダウンで記述されたリンク、画像、コメントとともに埋め込むことができます。
データガバナンスとセキュアなデータ共有
Unity Catalogは、データレイクハウスに統合されたデータガバナンスモデルを提供します。クラウド管理者はUnity Catalogの大まかなアクセス制御権限を構成して統合し、Databricks管理者はチームや個人の権限を管理できます。権限は、ユーザーフレンドリーなUIまたはSQL構文のいずれかを介してアクセス制御リスト(ACL)で管理されます。これにより、データベース管理者は、クラウドネイティブのIDアクセス管理(IAM)やネットワーキングを使用する必要なく、データへのアクセスを簡単に保護することできます。
Unity Catalogを使用すると、クラウドでのセキュアな分析の実行が簡単になり、プラットフォームの管理者とエンドユーザーの両方の責任を分担することができます。これにより、スキルの再取得やスキルアップの必要性を制限することができます。Unity Catalogとはを参照してください。
レイクハウスを使用すると、テーブルまたはビューへのクエリーアクセスを許可するのと同じくらい簡単に組織内でデータを共有することができます。セキュアな環境の外部での共有のために、Unity CatalogにはマネージドバージョンのDelta Sharingが用意されています。
DevOps、CI/CD、タスクオーケストレーション
ETL パイプライン、MLモデル、アナリティクスダッシュボードの開発ライフサイクルには、それぞれ独自の課題があります。Databricks では、すべてのユーザーが 1 つのデータソースを活用できるため、重複する作業やレポートの同期がずれていることが削減されます。 さらに、バージョン管理、自動化、スケジューリング、コードデプロイ、本番運用リソースのための一連の共通ツールを提供することで、モニタリング、オーケストレーション、運用のオーバーヘッドを簡素化できます。 ジョブは 、Databricks ノートブック、SQL クエリ、およびその他の任意のコードをスケジュールします。 Git フォルダー を使用すると、Databricks プロジェクトを多くの一般的な Git プロバイダーと同期できます。 ツールの完全な概要については、 開発者ツールを参照してください。
リアルタイム分析とストリーミング分析
Databricksでは、Apache Spark構造化ストリーミングを利用して、ストリーミングデータと増分データ変更を扱っています。構造化ストリーミングはDelta Lakeと緊密に統合されており、これらのテクノロジーはDelta Live TablesとAuto Loaderの両方の基盤となっています。Databricksでのストリーミングを参照してください。