Databricks とは

Databricks は、エンタープライズレベルの大規模なデータ分析やAIソリューションを構築、デプロイ、共有、保守するための統合されたオープンな分析プラットフォームです。Databricksデータインテリジェンスプラットフォームは、クラウドアカウントのクラウドストレージとセキュリティと統合し、クラウドインフラストラクチャを管理およびデプロイします。

Databricks データインテリジェンスプラットフォーム

Databricksは、生成AIとデータレイクハウスを使用して、データの一意のセマンティクスを理解します。その後、パフォーマンスを自動的に最適化し、ビジネスニーズに合わせてインフラストラクチャを管理します。

自然言語処理はビジネスの言語を学習するため、自分の言葉で質問することでデータを検索して発見できます。自然言語アシスタンスは、コードの記述、エラーのトラブルシューティング、ドキュメントでの回答の検索に役立ちます。

マネージドなオープンソースインテグレーション

Databricks はオープンソースコミュニティにコミットしており、Databricks Runtime リリースとのオープンソース統合の更新を管理しています。次のテクノロジーは、もともと Databricks の従業員によって作成されたオープンソースプロジェクトです。

一般的な使用例

次の使用例では、重要なビジネス機能と意思決定を推進するデータの処理、保存、分析に不可欠なタスクを達成するために、顧客が Databricks を使用する方法の一部に焦点を当てています。

エンタープライズデータレイクハウスの構築

このデータレイクハウスは、エンタープライズデータウェアハウスとデータレイクを組み合わせて、エンタープライズデータソリューションを高速化、簡素化、統合します。データエンジニア、データサイエンティスト、アナリスト、および本番運用システムはすべて、データレイクハウスを単一の真実のソースとして使用でき、一貫性のあるデータへのアクセスを提供し、多くの分散データシステムの構築、保守、同期の複雑さを軽減します。データレイクハウスとはを参照してください。

ETLとデータエンジニアリング

ダッシュボードを生成する場合でも、人工知能アプリケーションを強化する場合でも、データエンジニアリングは、データが利用可能でクリーンで、効率的な検出と使用のためにデータモデルに保存されていることを確認することで、データ中心の企業にバックボーンを提供します。Databricks は、 Apache Spark のパワーと Delta およびカスタムツールを組み合わせて、比類のない ETL エクスペリエンスを提供します。SQL、Python、Scalaを使用してETLロジックを作成し、スケジュールされたジョブのデプロイを数回のクリックでオーケストレーションします。

Lakeflow pipelinesは、データセット間の依存関係をインテリジェントに管理し、本番運用インフラストラクチャを自動的にデプロイおよびスケーリングすることで、ETL をさらに簡素化し、お客様の仕様に合わせてタイムリーかつ正確なデータ配信を実現します。

Databricksは、クラウドオブジェクトストレージとデータレイクからデータレイクハウスにデータを段階的かつ、べき等的に読み込むための効率的でスケーラブルなツールである Auto Loaderなど、データ取り込み用のツールを提供します。

機械学習、AI、データサイエンス

Databricksにおける機械学習は、Databricks機械学習ランタイムやMLflowなど、データサイエンティストやMLエンジニアのニーズに合わせた一連のツールによって、プラットフォームのコア機能を拡張します。

大規模言語モデルと生成AI

Databricks機械学習ランタイムには、既存の事前トレーニング済みモデルやその他のオープンソースライブラリをワークフローに統合できる Hugging Face Transformers などのライブラリが含まれています。Databricks MLflow の統合により、トランスフォーマーパイプライン、モデル、処理コンポーネントと共に MLflow 追跡サービスを簡単に使用できます。OpenAIモデルやJohn Snow LabsのようなパートナーのソリューションをDatabricks ワークフローに統合します。

Databricks を使用して、特定のタスクに合わせてデータの LLM をカスタマイズします。Hugging Face や DeepSpeed などのオープンソースツールのサポートにより、基礎 LLM を効率的に取得し、独自のデータでトレーニングを開始して、ドメインとワークロードの精度を高めることができます。

さらに、 Databricks 、 SQLデータアナリストがデータパイプラインやワークフロー内で直接、 OpenAIからなどの LLM にアクセスするために使用できるAI関数を提供します。 AI関数を使用したデータの拡充をご覧ください。

データウェアハウス、アナリティクス、BI

Databricksは、ユーザーフレンドリーなUIとコスト効率の高いコンピュートリソース、および無限にスケーラブルで手頃なストレージを組み合わせて、分析クエリを実行するための強力なプラットフォームを提供します。管理者はスケーラブルなコンピュートクラスターをSQLウェアハウスとして構成し、エンドユーザーがクラウド上での作業の複雑さを気にすることなくクエリを実行できるようにします。SQLユーザーは、SQL クエリエディターまたはノートブックを使用して、レイクハウス内のデータに対してクエリを実行できます。ノートブックはSQLに加えてPython、R、Scalaをサポートしており、ユーザーはリンク、画像、マークダウンで記述されたコメントとともにビジュアライゼーションを埋め込むことができます。

一貫した知見を提供するために、Unity Catalog セマンティクスで共有セマンティックレイヤーを定義します。ビジネスKPIをメトリクスビューとして一度定義し、任意のディメンションでそれらをクエリーすることで、ユーザーとAIツールの両方に、メトリクスに対する単一の管理されたソースを提供できます。このレイヤーの上に、AI支援オーサリング、拡張された視覚化ライブラリ、合理化された構成エクスペリエンスを提供するAI/BIダッシュボードを構築できます。ビジネスユーザーは、組織の用語とデータに合わせて調整された生成AIを使用するGenie Agentsで、自然言語でデータを探索することもできます。

データガバナンスと安全なデータ共有

Unity Catalogは、データレイクハウスに統合されたデータガバナンスモデルを提供します。クラウド管理者はUnity Catalogの大まかなアクセス制御権限を構成して統合し、Databricks管理者はチームや個人の権限を管理できます。権限は、ユーザーフレンドリーなUIまたはSQL構文のいずれかを介してアクセス制御リスト（ACL）で管理されます。これにより、データベース管理者は、クラウドネイティブのIDアクセス管理（IAM）やネットワーキングを使用する必要なく、データへのアクセスを簡単に保護することできます。

Unity Catalog により、安全なアナリティクスクラウド上での運用が簡単になり、プラットフォームの管理者とエンドユーザーの両方に必要な再教育やスキルアップを制限する責任分担が可能になります。 Unity Catalog とはを参照してください。

レイクハウスを使用すると、テーブルまたはビューへのクエリーアクセスを許可するのと同じくらい簡単に組織内でデータ共有をすることができます。セキュアな環境の外部での共有のために、Unity CatalogにはマネージドバージョンのOpenSharingが用意されています。

DevOps、CI/CD、タスクのオーケストレーション

ETL パイプライン、MLモデル、アナリティクスダッシュボードの開発ライフサイクルには、それぞれ独自の課題があります。Databricks では、すべてのユーザーが 1 つのデータソースを活用できるため、重複する作業やレポートの同期がずれていることが削減されます。さらに、バージョン管理、自動化、スケジューリング、コードデプロイ、本番運用リソースのための一連の共通ツールを提供することで、モニタリング、オーケストレーション、運用のオーバーヘッドを簡素化できます。

ジョブはDatabricksノートブック、 SQLクエリ、その他の任意のコードをスケジュールします。宣言型オートメーションバンドルを使用すると、ジョブやパイプラインなどのDatabricksリソースをプログラムで定義、デプロイ、実行できます。 Gitフォルダを使用すると、Databricksプロジェクトを多数の一般的なGitプロバイダーと同期できます。

CI/CD のベストプラクティスと推奨事項については、Databricks の CI/CD ワークフローとDatabricks の開発者向けベストプラクティスを参照してください。開発者向けツールの完全な概要については、Databricks での開発を参照してください。

リアルタイム分析とストリーミング分析

Databricks は Apache Spark Structured Streaming を活用して、ストリーミングデータと増分データ変更を処理します。Structured Streaming は Delta Lake と緊密に統合されており、これらのテクノロジーは LakeFlow Pipelines と Auto Loader の両方の基盤を提供します。Structured Streaming の概念を参照してください。

オンライン取引処理

Lakebaseは、Databricksデータインテリジェンスプラットフォームと完全に統合されたオンライン・トランザクション処理（OLTP）データベースです。このフルマネージド型のPostgresデータベースを使用すると、Databricksが管理するストレージに保存されたOLTPデータベースを作成および管理できます。Lakebase Postgres を参照してください。

マネージドなオープンソースインテグレーション​

一般的な使用例​

エンタープライズデータレイクハウスの構築​

ETLとデータエンジニアリング​

機械学習、AI、データサイエンス​

大規模言語モデルと生成AI​

データウェアハウス、アナリティクス、BI​

データガバナンスと安全なデータ共有​

DevOps、CI/CD、タスクのオーケストレーション​

リアルタイム分析とストリーミング分析​

オンライン取引処理​