Unity Catalogのコンピュート アクセス モードの制限事項

Databricks では、ほとんどのワークロードに Unity Catalog と共有アクセス モードを使用することが推奨されています。 この記事では、Unity Catalog の各アクセス モードに関するさまざまな制限事項について説明します。 アクセスモードの詳細については、「 アクセスモード」を参照してください。

Databricks では、コンピュート ポリシーを使用して、ほとんどのユーザーの構成オプションを簡略化することをお勧めします。 「コンピュートポリシーの作成と管理」を参照してください。

注:

分離なしの共有は、Unity Catalog をサポートしていないレガシ アクセス モードです。

重要

init スクリプトとライブラリは、アクセス モードと Databricks ランタイムのバージョンによってサポートが異なります。 「init スクリプトはどこにインストールできますか?」を参照してください。 およびクラスタースコープのライブラリ

Unity Catalogでのシングル ユーザー アクセス モードの制限

Unity Catalog のシングル ユーザー アクセス モードには、次の制限があります。 これらは、すべての Unity Catalog アクセス モードの一般的な制限に追加されます。 「Unity Catalog の一般的な制限事項」を参照してください。

Unity Catalog のシングルユーザーアクセスモードのきめ細かなアクセス制御の制限

  • ダイナミックビューはサポートされていません。

  • ビューから読み取るには、参照されるすべてのテーブルとビューに対するSELECTが必要です。

  • 行フィルターまたは列マスクを持つ表にはアクセスできません。

  • ストリーミング テーブル で作成された マテリアライズド ビュー など、UnityDelta Live Tables Catalog 対応の パイプラインによって作成されたテーブルをクエリするために、単一ユーザーのクエリを使用することはできません。Databricks SQLDelta Live Tablesパイプラインによって作成されたテーブルをクエリするには、 Databricks Runtime 13.3 LTS以降を使用して共有コンピュートを使用する必要があります。

Unity Catalog のシングルユーザーアクセスモードのストリーミングの制限事項

  • 非同期チェックポイント処理は、Databricks Runtime 11.3 LTS 以下ではサポートされていません。

Unity Catalogでの共有アクセス モードの制限

Unity Catalog の共有アクセス モードには、次の制限があります。 これらは、すべての Unity Catalog アクセス モードの一般的な制限に追加されます。 「Unity Catalog の一般的な制限事項」を参照してください。

  • Databricks Runtime 機械学習と Spark 機械学習ライブラリ (MLlib) はサポートされていません。

  • Spark送信ジョブはサポートされません。

  • Databricks Runtime 13.3 以降では、個々の行が最大サイズの 128 MB を超えてはなりません。

  • 資格情報のパススルーと共に使用すると、Unity Catalog の機能は無効になります。

  • カスタムコンテナはサポートされていません。

Unity Catalog 共有アクセス モードの言語サポート

  • R はサポートされていません。

  • Scala は Databricks Runtime 13.3 以降でサポートされています。

Unity Catalog 共有アクセス モードに対する Spark API の制限事項

  • RDD APIsサポートされていません。

  • クラウド ストレージからデータを直接読み取る DBUtils およびその他のクライアントは、外部ロケーションを使用してストレージの場所にアクセスする場合にのみサポートされます。 クラウド ストレージをDatabricksに接続するには、「外部ロケーションの作成」を参照してください。

  • Spark Context ( sc )、 spark.sparkContext 、およびsqlContext 、Databricks Runtime の Scala ではサポートされておらず、Databricks Runtime 14.0 以降の Python ではサポートされていません。

    • Databricks では、 spark 変数を使用して SparkSession インスタンスを操作することをお勧めします。

    • scemptyRDDrangeinit_batched_serializerparallelizepickleFiletextFilewholeTextFilesbinaryFilesbinaryRecordssequenceFilenewAPIHadoopFilenewAPIHadoopRDDhadoopFilehadoopRDDunionrunJobsetSystemPropertyuiWebUrlstopsetJobGroupsetLocalPropertygetConf

Unity Catalog 共有アクセスモードの UDF の制限事項

プレビュー

共有アクセス モードを使用した Unity カタログ対応コンピュートでの Scala UDF のサポートはパブリック プレビュー段階です。

ユーザー定義関数 (UDF) には、共有アクセス モードに関する次の制限があります。

  • Hive UDF はサポートされていません。

  • applyInPandas およびmapInPandasは、Databricks Runtime 14.2 以下ではサポートされていません。

  • Databricks Runtime 14.2 以降では、Scala スカラー UDF がサポートされています。 他の Scala UDF およびUDAFsサポートされていません。

  • Databricks Runtime 13.3 LTS 以降では、Python スカラー UDF と Pandas UDF がサポートされています。 、UDTF、 上の などのその他のPython UDFUDAFsPandas Sparkはサポートされていません。

Unity Catalog のユーザー定義関数 (UDF)」を参照してください。

Unity Catalog 共有アクセスモードのストリーミングの制限事項

注:

リストされている Kafka オプションの一部は、Databricks でサポートされている構成に使用する場合、サポートが制限されます。 「Apache Kafka と Databricks を使用したストリーム処理」を参照してください。

  • Scala の場合、 foreachforeachBatch はサポートされていません。

  • Python の場合、Databricks Runtime 14.0 以降では、 foreachBatchの新しい動作が追加されました。 「Databricks Runtime 14.0 での foreachBatch の動作の変更」を参照してください。

  • Scala の場合、 from_avro には Databricks Runtime 14.2 以降が必要です。

  • applyInPandasWithState はサポートされていません。

  • ソケット・ソースの操作はサポートされていません。

  • Unity Catalogによって管理されるデータ ソースで option("cleanSource", "archive") を使用する場合、 sourceArchiveDir はソースと同じ外部ロケーションに存在する必要があります。

  • Kafka のソースとシンクでは、次のオプションはサポートされていません。

    • kafka.sasl.client.callback.handler.class

    • kafka.sasl.login.callback.handler.class

    • kafka.sasl.login.class

    • kafka.partition.assignment.strategy

  • 次の Kafka オプションは、Databricks Runtime 13.3 LTS 以上ではサポートされていますが、Databricks Runtime 12.2 LTS ではサポートされていません。 以下のオプションでは、 Unity Catalogによって管理される外部ロケーションのみを指定できます。

    • kafka.ssl.truststore.location

    • kafka.ssl.keystore.location

  • インスタンスプロファイルを使用して、共有アクセスモードでワークロードをストリーミングするための Kafka や Kinesis などの外部ソースへのアクセスを設定することはできません。

Unity Catalog 共有アクセスモードのネットワークとファイル システムのアクセス制限

  • ファイルシステムの機密部分へのアクセスが禁止された低特権ユーザーとしてコンピュート ノード上でコマンドを実行する必要があります。

  • Databricks Runtime 11.3 LTS 以下では、ポート 80 と 443 へのネットワーク接続のみを作成できます。

  • インスタンスメタデータサービス (IMDS)、他の EC2 インスタンス、または Databricks VPC で実行されているその他のサービスに接続できません。 これにより、boto3 や AWS CLI などの IMDS を使用するサービスにアクセスできなくなります。

Unity Catalogの一般的な制限事項

次の制限は、Unity Catalog が有効なすべてのアクセス モードに適用されます。

UDF (UDF の場合)

Graviton インスタンスは、Unity カタログ対応のコンピュートでは UDF をサポートしません。 共有アクセス モードには、追加の制限があります。 「 Unity Catalog共有アクセス モードの UDF 制限」を参照してください。

Unity Catalogのストリーミングの制限事項

  • Apache Spark の連続処理モードはサポートされていません。 『Spark構造化ストリーミング・プログラミング・ガイド』の 「連続処理 」を参照してください。

  • StreamingQueryListener 資格情報を使用したり、Unity Catalog によって管理されているオブジェクトを操作したりすることはできません。

「Unity Catalog シングル ユーザー アクセス モードのストリーミングの制限」および「 Unity Catalog 共有アクセス モードのストリーミングの制限 」も参照してください。

Unity Catalog を使用したストリーミングの詳細については、「 構造化ストリーミングでの Unity Catalog の使用」を参照してください。