Azure Cosmos DB
important
このドキュメントは廃止されており、更新されない可能性があります。 公式の Cosmos DB Spark コネクタの Github リポジトリを参照してください。
Azure Cosmos DB は、Microsoft のグローバル分散型マルチモデル データベースです。 Azure Cosmos DB を使用すると、Azure の任意の数の地理的リージョン間でスループットとストレージを弾力的かつ独立してスケーリングできます。 スループット、レイテンシ、可用性、一貫性の保証を、包括的なサービスレベルアグリーメント(SLA)で提供します。 Azure Cosmos DB では、次のデータ モデルに APIs が提供されており、SDK は複数の言語で使用できます。
- SQL API
- MongoDB API
- Cassandra API
- グラフ (グレムリン) API
- テーブル API
この記事では、Databricks を使用して Azure Cosmos DB からデータを読み書きする方法について説明します。 Azure Cosmos DBに関する最新情報の詳細については、「to Microsoft コネクタを使用してビッグデータ分析を高速化Apache SparkAzure Cosmos DBする」 を参照してください。
リソース:
important
このコネクタは、Azure Cosmos DB のコア (SQL) API をサポートしています。 Cosmos DB for MongoDB API の場合は、 MongoDB Spark コネクタを使用します。 Cosmos DB Cassandra API の場合は、 Cassandra Spark コネクタを使用します。
必要なライブラリを作成してアタッチする
- 実行している Apache Spark のバージョンに対応する 最新の azure-cosmosdb-spark ライブラリ をダウンロードします。
- ダウンロードした JAR ファイルを Databricks にアップロードします。 「ライブラリ」を参照してください。
- アップロードしたライブラリ を Databricks クラスターにインストールします。