メインコンテンツまでスキップ

Databricks とは

Databricks は、エンタープライズ レベルのデータ分析を構築、デプロイ、共有、保守するための統合されたオープン アナリティクス プラットフォームであり、大規模な AI ソリューション Databricks Data Intelligence Platform は、クラウドアカウントのクラウドストレージとセキュリティと統合し、クラウドインフラストラクチャを管理およびデプロイします。

Databricks データ インテリジェンス プラットフォーム

Databricksは、AI データレイクハウス で生成 を使用して、データの一意のセマンティクスを理解します。その後、パフォーマンスを自動的に最適化し、ビジネスニーズに合わせてインフラストラクチャを管理します。

自然言語処理によってあなたのビジネス言語を学習するため、ご自身の言葉で質問することでデータを検索して発見することができます。 自然言語アシスタンスは、コードの記述、エラーのトラブルシューティング、ドキュメント内の回答の検索に役立ちます。

マネージド・オープンソース統合

Databricks はオープンソースコミュニティにコミットしており、Databricks Runtime リリースとのオープンソース統合の更新を管理しています。次のテクノロジーは、もともと Databricks の従業員によって作成されたオープンソースプロジェクトです。

一般的な使用例

次の使用例では、重要なビジネス機能と意思決定を推進するデータの処理、保存、分析に不可欠なタスクを達成するために、顧客が Databricks を使用する方法の一部に焦点を当てています。

エンタープライズデータレイクハウスの構築

このデータレイクハウスは、エンタープライズデータウェアハウスとデータレイクを組み合わせて、エンタープライズデータソリューションを高速化、簡素化、統合します。データエンジニア、 data scientists、アナリスト、および本番運用システムはすべて、データレイクハウスを単一の真実のソースとして使用でき、一貫性のあるデータへのアクセスを提供し、多くの分散データシステムの構築、保守、同期の複雑さを軽減します。 データレイクハウスとはを参照してください。

ETLとデータエンジニアリング

ダッシュボードを生成する場合でも、人工知能アプリケーションを強化する場合でも、データエンジニアリングは、データが利用可能でクリーンで、効率的な検出と使用のためにデータモデルに保存されていることを確認することで、データ中心の企業にバックボーンを提供します。Databricks は、Apache Spark のパワーと Delta Lake およびカスタムツールを組み合わせて、比類のない ETL エクスペリエンスを提供します。SQL、Python、Scalaを使用してETLロジックを作成し、スケジュールされたジョブのデプロイを数回のクリックでオーケストレーションします。

DLTは、データセット間の依存関係をインテリジェントに管理し、本番運用インフラストラクチャを自動的にデプロイおよびスケーリングすることで、ETLをさらに簡素化し、お客様の仕様に合わせてタイムリーかつ正確なデータ配信を実現します。

Databricksは、クラウドオブジェクト Auto Loaderストレージとデータレイクからデータ レイクにデータを段階的かつべき等に読み込むための効率的でスケーラブルなツールである など、 データ取り込み 用のツールを提供します。

機械学習、AI、データサイエンス

Databricks RuntimeMachine LearningMLflow は、Databricks 機械学習の や など、 エンジニアやdata scientists MLエンジニアのニーズに合わせた一連のツールを使用して、プラットフォームのコア機能を拡張します。

大規模言語モデルと生成AI

Databricks Runtime for Machine Learning には、既存の事前トレーニング済みモデルやその他のオープンソースライブラリをワークフローに統合できる Hugging Face Transformers などのライブラリが含まれています。Databricks MLflow の統合により、トランスフォーマー パイプライン、モデル、処理コンポーネントと共に MLflow 追跡サービスを簡単に使用できます。のようなパートナーのOpenAIJohn Snow Labs モデルまたはソリューションをDatabricks ワークフローに統合します。

Databricks を使用して、特定のタスクに合わせてデータの LLM をカスタマイズします。Hugging Face や DeepSpeed などのオープンソース ツールのサポートにより、基礎 LLM を効率的に取得し、独自のデータでトレーニングを開始して、ドメインとワークロードの精度を高めることができます。

さらに、Databricks は、SQL データアナリストが OpenAI を含むデータパイプラインやワークフロー内で直接 LLM モデルにアクセスするために使用できる AI 関数を提供します。を使用したデータへの の適用AIDatabricksAI Functions を参照してください。

データウェアハウジング, アナリティクス, BI

Databricks は、ユーザーフレンドリーな UI とコスト効率の高いコンピュート リソース、無限にスケーラブルで手頃な価格のストレージを組み合わせて、分析クエリを実行するための強力なプラットフォームを提供します。 管理者は、スケーラブルなコンピュート クラスターをウェアハウスとして構成SQL、エンドユーザーがクラウド上での作業の複雑さを心配することなくクエリを実行できるようにします。SQL ユーザーは、 SQL クエリ エディター またはノートブックを使用して、レイクハウス内のデータに対してクエリを実行できます。 ノートブック は、SQL に加えて Python、R、Scalaをサポートしており、ユーザーは、マークダウンで記述されたリンク、画像、コメントと共に、従来のダッシュボード で利用可能なものと同じ ビジュアライゼーション を埋め込むことができます。

データガバナンスと安全なデータ共有

Unity Catalogは、データレイクハウスに統合されたデータガバナンスモデルを提供します。クラウド管理者はUnity Catalogの大まかなアクセス制御権限を構成して統合し、Databricks管理者はチームや個人の権限を管理できます。権限は、ユーザーフレンドリーなUIまたはSQL構文のいずれかを介してアクセス制御リスト(ACL)で管理されます。これにより、データベース管理者は、クラウドネイティブのIDアクセス管理(IAM)やネットワーキングを使用する必要なく、データへのアクセスを簡単に保護することできます。

Unity Catalog により、安全なアナリティクス クラウド上での運用が簡単になり、プラットフォームの管理者とエンドユーザーの両方に必要な再教育やスキルアップを制限する責任分担が可能になります。 「Unity Catalog とは」を参照してください。

レイクハウスを使用すると、テーブルやビューへのクエリ アクセスを許可するのと同じくらい簡単に、組織内でのデータ共有が可能になります。 セキュリティで保護された環境の外部で共有するために、Unity Catalog には マネージド バージョンの Delta Sharing が用意されています。

DevOps、CI/CD、タスクのオーケストレーション

ETL パイプライン、MLモデル、アナリティクスダッシュボードの開発ライフサイクルには、それぞれ独自の課題があります。Databricks では、すべてのユーザーが 1 つのデータソースを活用できるため、重複する作業やレポートの同期がずれていることが削減されます。 さらに、バージョン管理、自動化、スケジューリング、コードデプロイ、本番運用リソースのための一連の共通ツールを提供することで、モニタリング、オーケストレーション、運用のオーバーヘッドを簡素化できます。 ジョブは 、Databricks ノートブック、SQL クエリ、およびその他の任意のコードをスケジュールします。 Git フォルダー を使用すると、Databricks プロジェクトを多くの一般的な Git プロバイダーと同期できます。 ツールの完全な概要については、「 ローカル開発ツール」を参照してください。

リアルタイム分析とストリーミング分析

Databricks は Apache Spark 構造化ストリーミングを利用して、ストリーミング データと増分データ変更を処理します。 構造化ストリーミングは Delta Lakeと緊密に統合されており、これらのテクノロジーは DLT と Auto Loaderの両方の基盤を提供します。 構造化ストリーミングの概念を参照してください。