メインコンテンツまでスキップ

Azure Cosmos DB

important

このドキュメントは廃止されており、更新されない可能性があります。 公式の Cosmos DB Spark コネクタの Github リポジトリを参照してください。

Azure Cosmos DB は、Microsoft のグローバル分散型マルチモデル データベースです。 Azure Cosmos DB を使用すると、Azure の任意の数の地理的リージョン間でスループットとストレージを弾力的かつ独立してスケーリングできます。 スループット、レイテンシ、可用性、一貫性の保証を、包括的なサービスレベルアグリーメント(SLA)で提供します。 Azure Cosmos DB では、次のデータ モデルに APIs が提供されており、SDK は複数の言語で使用できます。

  • SQL API
  • MongoDB API
  • Cassandra API
  • グラフ (グレムリン) API
  • テーブル API

この記事では、Databricks を使用して Azure Cosmos DB からデータを読み書きする方法について説明します。 Azure Cosmos DBに関する最新情報の詳細については、「to Microsoft コネクタを使用してビッグデータ分析を高速化Apache SparkAzure Cosmos DBする」 を参照してください。

リソース:

important

このコネクタは、Azure Cosmos DB のコア (SQL) API をサポートしています。 Cosmos DB for MongoDB API の場合は、 MongoDB Spark コネクタを使用します。 Cosmos DB Cassandra API の場合は、 Cassandra Spark コネクタを使用します。

必要なライブラリを作成してアタッチする

  1. 実行している Apache Spark のバージョンに対応する 最新の azure-cosmosdb-spark ライブラリ をダウンロードします。
  2. ダウンロードした JAR ファイルを Databricks にアップロードします。 「ライブラリ」を参照してください。
  3. アップロードしたライブラリ を Databricks クラスターにインストールします。