Unity Catalog クラスターへのScala JARのデプロイ

この記事では Scala 標準アクセスモードで Unity Catalog 対応クラスター上の JAR ファイルとしてジョブをコンパイルしてデプロイする方法について説明します。次のことを確認するための詳細を提供します。

Java Development Kit (JDK) のバージョンが、Databricks クラスターの JDK バージョンと一致している。
ScalaScalaDatabricksのバージョンは、クラスターのバージョンと一致します。
Databricks Connect 依存関係として追加され、 Databricks クラスターで実行されているバージョンと一致します。
コンパイルするローカルプロジェクトは、1つのJARとしてパッケージ化され、すべての依存関係が含まれています。または、依存関係をクラスターライブラリとしてインストールすることもできます。
OSS Spark へのすべての依存関係 ( spark-core や hadoop-core など) は削除されます。
使用されているすべての JAR が許可リストに追加されます。

注記

標準アクセスモードでのUnity Catalogクラスター、クライアントコンポーネントとサーバーコンポーネントを分離する新しい Spark Connect アーキテクチャが実装されます。この分離により、クラスターを効率的に共有しながら、行フィルターや列マスクなどの手段を使用してUnity Catalogのガバナンスを完全に適用できます。ただし、標準アクセスUnity Catalog モードでのクラスターには、SparkContext や RDD などのAPIがサポートされていないなど、いくつかの制限があります。制限は、Unity Catalogにおけるコンピュートアクセスモードの制限にリストされています。

ステップ 1: Scala と JDK のバージョンが一致していることを確認する

JAR をビルドする前に、コードのコンパイルに使用する Java Development Kit (JDK) と Scala のバージョンが、クラスターの Databricks Runtime バージョンで実行されているバージョンと一致していることを確認してください。互換性のあるバージョンに関する情報については、バージョンサポートマトリックスを参照してください。

手順 2: Databricks Connect を依存関係として追加する

Databricks Connect を使用して、OSS Spark の代わりに Scala JAR をビルドする必要があります。Databricks Runtime で実行されている Spark バージョンは、OSS Spark で現在使用できるバージョンよりも新しく、パフォーマンスと安定性の向上が含まれています。

Scala プロジェクトのビルドファイル (sbt の sbt の s build.sbt や Maven の pom.xml など) に、Databricks Connect への次の参照を追加します。また、OSS Spark への依存関係も削除します。

Maven
Sbt

<dependency>
  <groupId>com.databricks</groupId>
  <artifactId>databricks-connect</artifactId>
  <version>16.2.0</version>
</dependency>

libraryDependencies += "com.databricks" % "databricks-connect" % "16.2.+"

ステップ3:単一のJARとしてパッケージ化してデプロイする

Databricks では、アプリケーションとすべての依存関係を 1 つの JAR ファイル ( über JAR または fat JAR とも呼ばれます) にパッケージ化することをお勧めします。sbt の場合は sbt-assemblyを使用し、Maven の場合は maven-shade-pluginを使用します。詳細は公式の Maven Shade プラグインと sbt-assembly のドキュメンテーションを参照のこと。

または、依存関係をクラスタースコープのライブラリとしてインストールすることもできます。詳細については、コンピュートスコープライブラリを参照してください。

注記

Unity Catalog標準クラスターにライブラリとしてインストールされたScala JARの場合、JAR ライブラリ内のクラスはcom.databricks.MyClass などの名前付きパッケージに含まれている必要があり、そうでない場合はライブラリのインポート時にエラーが発生します。

JAR タスクを使用して JAR ファイルをデプロイします。ジョブの JAR タスクを参照してください。

ステップ4:JARが許可リストに登録されていることを確認する

セキュリティ上の理由から、標準アクセスモードでは、管理者が JAR ライブラリの Maven 座標とパスを許可リストに追加する必要があります。標準アクセスモード(旧共有アクセスモード)におけるライブラリの許可リストとinitスクリプトを参照してください。

ステップ 1: Scala と JDK のバージョンが一致していることを確認する​

手順 2: Databricks Connect を依存関係として追加する​

ステップ3:単一のJARとしてパッケージ化してデプロイする​

ステップ4:JARが許可リストに登録されていることを確認する​

ステップ 1: Scala と JDK のバージョンが一致していることを確認する

手順 2: Databricks Connect を依存関係として追加する

ステップ3:単一のJARとしてパッケージ化してデプロイする

ステップ4:JARが許可リストに登録されていることを確認する