Databricks Runtime のメンテナンス更新プログラム (アーカイブ済み)
このアーカイブされたページには、サポートされなくなった Databricks Runtime リリースに対して発行されたメンテナンス更新プログラムの一覧です。 既存のクラスターにメンテナンス更新を追加するには、クラスターを再起動します。
このドキュメントは廃止されており、更新されない可能性があります。 このコンテンツに記載されている製品、サービス、またはテクノロジはサポートが終了しました。 Databricks Runtimeリリースノートのバージョンと互換性を参照してください。
この記事には、Databricks が使用していない用語である ホワイトリスト という用語への参照が含まれています。 この用語がソフトウェアから削除されると、この記事から削除されます。
Databricks Runtime リリース
リリースごとのメンテナンス更新:
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.1
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Databricks Runtime 6.4 延長サポート (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4 延長サポート
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
- Databricks Runtime 3.3 (EoS)
- Databricks Runtime 3.2 (EoS)
- 2.1.1-DB6 (EoS)
サポートされている Databricks Runtime バージョンのメンテナンス更新プログラムについては、「 Databricks Runtime メンテナンス更新プログラム」を参照してください。
Databricks Runtime 15.3
「Databricks Runtime 15.3 (EoS)」を参照してください。
-
2024年11月26日
- このリリースでは、テキスト入力に
query_text
を使用してvector_search
関数をクエリしたり、埋め込み入力にquery_vector
を使用してクエリを実行できるようになりました。 - オペレーティング システムのセキュリティ更新プログラム。
- このリリースでは、テキスト入力に
-
2024年11月5日
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- [SPARK-49867][SQL] GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラーメッセージを改善
- [スパーク-48843] [15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム-ストリーム結合における状態ストアへの入力追加の最適化を見直しました(正確性修正
- [SPARK-49863][SQL] ネストされた構造体のnull可能性を保持するようにNormalizeFloatingNumbersを修正
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [SPARK-46632][SQL] 同等の三項式が異なる子を持つ場合の部分式の削除を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月22日
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- [SPARK-49867][SQL] GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラーメッセージを改善
- [スパーク-48843] [15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム-ストリーム結合における状態ストアへの入力追加の最適化を見直しました(正確性修正
- [SPARK-49863][SQL] ネストされた構造体のnull可能性を保持するようにNormalizeFloatingNumbersを修正
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [SPARK-46632][SQL] 同等の三項式が異なる子を持つ場合の部分式の削除を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月10日
- [SPARK-49688][CONNECT] 割り込みと実行プラン間のデータ競合を修正
- [SPARK-49743][SQL] GetArrayStructFieldsのプルーニング時にOptimizeCsvJsonExprがスキーマフィールドを変更しないようにすべき
- [バックポート] [SPARK-49474][SS] FlatMapGroupsWithStateユーザー関数エラーの分類エラークラス
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月25日
- [SPARK-49492][CONNECT] 非アクティブなExecutionHolderで再アタッチが試行されました
- [SPARK-49628][SQL] ConstantFolding は評価する前にステートフルな式をコピーすべきです
- [SPARK-49000][SQL] RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正
- [SPARK-49458][CONNECT][Python] ReattachExecuteを介してサーバー側のセッションIDを提供
- [SPARK-48719][SQL] 最初のパラメーターがnullの場合の
RegrSlope
とRegrIntercept
の計算バグを修正 - オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月17日
- [SPARK-49336][CONNECT] protobufメッセージを切り捨てるときにネストレベルを制限する
- [SPARK-49526][接続][15.3.5] ArtifactManagerでWindowsスタイルのパスをサポート
- [SPARK-49366][CONNECT] データフレーム列の解像度でユニオンノードをリーフとして扱う
- [SPARK-43242][CORE] シャッフル破損診断で「予期しないタイプのBlockId」がスローされる問題を修正
- [SPARK-49409][CONNECT]デフォルト値のCONNECT_SESSION_PLAN_CACHE_SIZEを調整します
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年8月29日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント:ブールデータフレームリーダーオプションを一貫して処理
- [SPARK-49056][SQL] ErrorClassesJsonReaderがnullを適切に処理できない
- [SPARK-48862] [Python][CONNECT] INFOレベルが有効になっていない
_proto_to_string
の呼び出しを避ける - [SPARK-49146][SS] 追加モードのストリーミングクエリで欠落しているウォーターマークに関連するアサーションエラーをエラーフレームワークに移動
-
2024年8月14日
- [スパーク-48941][スパーク-48970] Backport ML ライター/リーダーの修正
- [SPARK-48706][Python] 高階関数の Python UDF 内部エラーをスローしないようにする
- [SPARK-48954] try_remainder)をtry_mod)に置き換える
- [SPARK-48597][SQL] 論理プランのテキスト表現にisStreamingプロパティのマーカーを導入
- [SPARK-49065][SQL] レガシーフォーマッタ/パーサーでのリベースは、JVM以外のデフォルトタイムゾーンをサポートする必要がある
- [SPARK-49047][Python][CONNECT] ログ記録のためにメッセージを切り捨てる
- [SPARK-48740][SQL] 欠落しているウィンドウ指定エラーを早期にキャッチ
-
2024年8月1日
- [破壊的変更]Databricks Runtime 15.3 以降では、引数または戻り値として
VARIANT
型を使用する Python ユーザー定義関数 (UDF)、ユーザー定義集計関数 (UDAF)、またはユーザー定義テーブル関数 (UDTF) を呼び出すと、例外がスローされます。 この変更は、これらの関数のいずれかによって返される無効な値が原因で発生する可能性のある問題を防ぐために行われます。VARIANT
タイプの詳細については、「VARIANT を使用して半構造化データを保存する」を参照してください。 - サーバレス コンピュート for ノートブック と ジョブでは、ANSI SQL モードはデフォルトによって有効になっています。 サポートされている Spark 構成パラメーターを参照してください。
- 共有アクセス モードで構成されたコンピュートでは、 Kafka バッチの読み取りと書き込みに、構造化ストリーミングに関するドキュメントと同じ制限が適用されるようになりました。 「Unity Catalog 標準アクセス モードのストリーミングの制限事項と要件」を参照してください。
SHOW CREATE TABLE
ステートメントからの出力に、マテリアライズドビューまたはストリーミングテーブルで定義された行フィルタまたはカラムマスクが含まれるようになりました。SHOW CREATE TABLEを参照してください。行フィルターと列マスクの詳細については、「 行フィルターと列マスクを使用した機密性の高いテーブル データのフィルター」を参照してください。- [SPARK-46957][CORE] 移行されたシャッフルファイルを廃止すると、エグゼキューターからクリーンアップできる必要があります
- [SPARK-48648][Python][CONNECT] SparkConnectClient.tagsを適切にスレッドローカルに
- [SPARK-48896] [SPARK-48909] [SPARK-48883] バックポートSpark MLライターの修正
- [SPARK-48713][SQL] baseObjectがバイト配列の場合にUnsafeRow.pointToのインデックス範囲チェックを追加
- [SPARK-48834][SQL] クエリのコンパイル中にPythonスカラーUDFs、UDTFs、UDAFsへのバリアント入出力を無効にする
- [SPARK-48934][SS] applyInPandasWithStateのタイムアウトを設定するために、Pythonの日時型が正しく変換されません
- [SPARK-48705][Python] ワーカーがPySparkで始まる場合は、ワーカーを明示的に使用してください
- [SPARK-48544][SQL] 空のTreeNode BitSetsのメモリ負荷を軽減
- [SPARK-48889][SS] testStreamが終了する前にステートストアをアンロードするように
- [SPARK-49054][SQL] 列のデフォルト値は current_* 関数をサポートする必要があります
- [SPARK-48653][Python] 無効な Python データソースエラークラス参照を修正
- [SPARK-48463] ネストされた入力列をサポートする StringIndexer を作成する
- [SPARK-48810][CONNECT] セッション停止() APIはべき等であり、セッションがすでにサーバーによって閉じられている場合に失敗しないようにする必要があります
- [SPARK-48873][SQL] JSONパーサーでUnsafeRowを使用します。
- オペレーティング システムのセキュリティ更新プログラム。
- [破壊的変更]Databricks Runtime 15.3 以降では、引数または戻り値として
-
2024年7月11日
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
.checkpoint()
を使用して、DataFrame の有効期間を通じてテーブルの状態を保持します。 - Snowflake JDBC ドライバーがバージョン3.16.1に更新されました。
- このリリースには、Databricks Container Services で実行しているときに Spark UI の [環境] タブが正しく表示されない問題の修正が含まれています。
- データの読み取り時に無効なパーティションを無視するために、 Parquet、 ORC、 CSV、 JSONなどのファイルベースのデータソースで ignoreInvalidPartitionPaths データソース オプションを true に設定できます。 たとえば、spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データソースオプションは SQL 設定よりも優先されます。 この設定は、デフォルトでは false です。
- [SPARK-48100][SQL] スキーマで選択されていないネストされた構造フィールドをスキップする問題を修正
- [SPARK-47463] [SQL] V2Predicateを使用して、戻り値の型がブール値で式をラップする
- [SPARK-48292][CORE] 元に戻す [SPARK-39195][SQL] コミットされたファイルがタスクのステータスと一致しない場合、Spark OutputCommitCoordinator はステージを中止する必要があります
- [SPARK-48475] [Python] PySparkで_get_jvm_functionを最適化します。
- [スパーク-48286] デフォルトの式が存在する列の分析を修正 - ユーザー向けのエラーを追加
- [SPARK-48481][SQL][SS] ストリーミングデータセットに対してOptimizeOneRowPlanを適用しない
- 「[SPARK-47406][SQL] MYSQLDialect で TIMESTAMP と DATETIME を処理する」を元に戻します
- [SPARK-48383][SS] KafkaのstartOffsetオプションで、不一致のパーティションに対してより良いエラーをスローするように修正
- [SPARK-48503] [14.3-15.3] [SQL] 誤って許可されていた非等価列に対する group-by を使用した無効なスカラー サブクエリを修正します。
- [SPARK-48445][SQL] 高価な子と UDF をインライン化しないでください
- [SPARK-48252][SQL] 必要に応じてCommonExpressionRefを更新
- [SPARK-48273][master][SQL] PlanWithUnresolvedIdentifierの遅延書き換えを修正
- [SPARK-48566][Python] UDTF analyze()がselectとpartitionColumnsの両方を使用する場合にパーティションインデックスが正しくないバグを修正
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSIONを指す誤ったエラーメッセージを修正
- オペレーティング システムのセキュリティ更新プログラム。
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
Databricks Runtime 15.2
「Databricks Runtime 15.2 (EoS)」を参照してください。
-
2024年11月26日
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年11月5日
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- [スパーク-48843] [15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム-ストリーム結合における状態ストアへの入力追加の最適化を見直しました(正確性修正
- [SPARK-49863][SQL] ネストされた構造体のnull可能性を保持するようにNormalizeFloatingNumbersを修正
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [SPARK-46632][SQL] 同等の三項式が異なる子を持つ場合の部分式の削除を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月22日
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- [スパーク-48843] [15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム-ストリーム結合における状態ストアへの入力追加の最適化を見直しました(正確性修正
- [SPARK-49863][SQL] ネストされた構造体のnull可能性を保持するようにNormalizeFloatingNumbersを修正
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [SPARK-46632][SQL] 同等の三項式が異なる子を持つ場合の部分式の削除を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月10日
- [バックポート] [SPARK-49474][SS] FlatMapGroupsWithStateユーザー関数エラーの分類エラークラス
- [SPARK-49743][SQL] GetArrayStructFieldsのプルーニング時にOptimizeCsvJsonExprがスキーマフィールドを変更しないようにすべき
- [SPARK-49688][CONNECT] 割り込みと実行プラン間のデータ競合を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月25日
- [SPARK-49000][SQL] RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正
- [SPARK-48719][SQL] 最初のパラメーターがnullの場合のRegrSlopeとRegrInterceptの計算バグを修正
- [SPARK-49458][CONNECT][Python] ReattachExecuteを介してサーバー側のセッションIDを提供
- [SPARK-49628][SQL] ConstantFolding は評価する前にステートフルな式をコピーすべきです
- [SPARK-49492][CONNECT] 非アクティブなExecutionHolderで再アタッチが試行されました
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月17日
- [SPARK-49336][CONNECT] protobufメッセージを切り捨てるときにネストレベルを制限する
- [SPARK-49526][CONNECT] ArtifactManagerでWindowsスタイルのパスをサポート
- [SPARK-49366][CONNECT] データフレーム列の解像度でユニオンノードをリーフとして扱う
- [SPARK-43242][CORE] シャッフル破損診断で「予期しないタイプのBlockId」がスローされる問題を修正
- [SPARK-49409][CONNECT]デフォルト値のCONNECT_SESSION_PLAN_CACHE_SIZEを調整します
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年8月29日
- [SPARK-49056][SQL] ErrorClassesJsonReaderがnullを適切に処理できない
- [SPARK-48597][SQL] 論理プランのテキスト表現にisStreamingプロパティのマーカーを導入
- [SPARK-48862] [Python][CONNECT] INFOレベルが有効になっていない
_proto_to_string
の呼び出しを避ける - [SPARK-49263][CONNECT] Spark Connect Python クライアント:ブールデータフレームリーダーオプションを一貫して処理
- [SPARK-49146][SS] 追加モードのストリーミングクエリで欠落しているウォーターマークに関連するアサーションエラーをエラーフレームワークに移動
-
2024年8月14日
- [スパーク-48941][スパーク-48970] Backport ML ライター/リーダーの修正
- [SPARK-48050][SS] クエリ開始時に論理プランをログに記録する
- [SPARK-48706][Python] 高階関数の Python UDF 内部エラーをスローしないようにする
- [SPARK-48740][SQL] 欠落しているウィンドウ指定エラーを早期にキャッチ
- [SPARK-49065][SQL] レガシーフォーマッタ/パーサーでのリベースは、JVM以外のデフォルトタイムゾーンをサポートする必要がある
- [SPARK-49047][Python][CONNECT] ログ記録のためにメッセージを切り捨てる
-
2024年8月1日
- サーバレス コンピュート for ノートブック と ジョブでは、ANSI SQL モードはデフォルトによって有効になっています。 サポートされている Spark 構成パラメーターを参照してください。
- 共有アクセス モードで構成されたコンピュートでは、 Kafka バッチの読み取りと書き込みに、構造化ストリーミングに関するドキュメントと同じ制限が適用されるようになりました。 「Unity Catalog 標準アクセス モードのストリーミングの制限事項と要件」を参照してください。
SHOW CREATE TABLE
ステートメントからの出力に、マテリアライズドビューまたはストリーミングテーブルで定義された行フィルタまたはカラムマスクが含まれるようになりました。SHOW CREATE TABLEを参照してください。行フィルターと列マスクの詳細については、「 行フィルターと列マスクを使用した機密性の高いテーブル データのフィルター」を参照してください。- [SPARK-48705][Python] ワーカーがPySparkで始まる場合は、ワーカーを明示的に使用してください
- [SPARK-48047][SQL] 空のTreeNodeタグのメモリ負荷を軽減
- [SPARK-48810][CONNECT] セッション停止() APIはべき等であり、セッションがすでにサーバーによって閉じられている場合に失敗しないようにする必要があります
- [SPARK-48873][SQL] JSONパーサーでUnsafeRowを使用します。
- [SPARK-46957][CORE] 移行されたシャッフルファイルを廃止すると、エグゼキューターからクリーンアップできる必要があります
- [SPARK-48889][SS] testStreamが終了する前にステートストアをアンロードするように
- [SPARK-48713][SQL] baseObjectがバイト配列の場合にUnsafeRow.pointToのインデックス範囲チェックを追加
- [SPARK-48896] [SPARK-48909] [SPARK-48883] バックポートSpark MLライターの修正
- [SPARK-48544][SQL] 空のTreeNode BitSetsのメモリ負荷を軽減
- [SPARK-48934][SS] applyInPandasWithStateのタイムアウトを設定するために、Pythonの日時型が正しく変換されません
- [SPARK-48463] ネストされた入力列をサポートする StringIndexer を作成する
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年7月11日
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
.checkpoint()
を使用して、DataFrame の有効期間を通じてテーブルの状態を保持します。 - Snowflake JDBC ドライバーがバージョン3.16.1に更新されました。
- このリリースには、Databricks Container Services で実行しているときに Spark UI の [環境] タブが正しく表示されない問題の修正が含まれています。
- サーバレス ノートブックとジョブでは、ANSI SQL モードはデフォルトによって有効になり、短い名前がサポートされます
- データの読み取り時に無効なパーティションを無視するために、 Parquet、 ORC、 CSV、 JSONなどのファイルベースのデータソースで ignoreInvalidPartitionPaths データソース オプションを true に設定できます。 たとえば、spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データソースオプションは SQL 設定よりも優先されます。 この設定は、デフォルトでは false です。
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifierの遅延書き換えを修正
- [SPARK-48292][CORE] 元に戻す [SPARK-39195][SQL] コミットされたファイルがタスクのステータスと一致しない場合、Spark OutputCommitCoordinator はステージを中止する必要があります
- [SPARK-48100][SQL] スキーマで選択されていないネストされた構造フィールドをスキップする問題を修正
- [スパーク-48286] デフォルトの式が存在する列の分析を修正 - ユーザー向けのエラーを追加
- [SPARK-48294][SQL] nestedTypeMissingElementTypeErrorで小文字を処理する
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSIONを指す誤ったエラーメッセージを修正
- [SPARK-48648][Python][CONNECT] SparkConnectClient.tagsを適切にスレッドローカルに
- [SPARK-48503][SQL] 誤って許可されていた非等価列に対するgroup-byを使用した無効なスカラーサブクエリを修正
- [SPARK-48252][SQL] 必要に応じてCommonExpressionRefを更新
- [SPARK-48475] [Python] PySparkで_get_jvm_functionを最適化します。
- [SPARK-48566][Python] UDTF analyze()がselectとpartitionColumnsの両方を使用する場合にパーティションインデックスが正しくないバグを修正
- [SPARK-48481][SQL][SS] ストリーミングデータセットに対してOptimizeOneRowPlanを適用しない
- [SPARK-47463] [SQL] V2Predicateを使用して、戻り値の型がブール値で式をラップする
- [SPARK-48383][SS] KafkaのstartOffsetオプションで、不一致のパーティションに対してより良いエラーをスローするように修正
- [SPARK-48445][SQL] 高価な子と UDF をインライン化しないでください
- オペレーティング システムのセキュリティ更新プログラム。
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
-
2024年6月17日
applyInPandasWithState()
は、共有クラスターで使用できます。- Photon TopKを使用したランクウィンドウの最適化が構造体を含むパーティションを誤って処理するバグを修正しました。
- try_divide() 関数で、小数点を含む入力が予期しない例外を引き起こすバグを修正しました。
- [SPARK-48197][SQL] 無効なラムダ関数のアサートエラーを回避
- [SPARK-48276] [Python][CONNECT] 不足している
__repr__
メソッドを追加SQLExpression
- [SPARK-48014][SQL] EvaluatePythonのmakeFromJavaエラーをユーザー向けのエラーに変更
- [SPARK-48016][SQL] 小数点を使用する場合のtry_divide関数のバグを修正
- [SPARK-47986][CONNECT][Python] デフォルトセッションがサーバーによって閉じられると、新しいセッションを作成できない
- [SPARK-48173][SQL] CheckAnalysis はクエリプラン全体を表示する必要があります
- [SPARK-48056][CONNECT][Python] SESSION_NOT_FOUNDエラーが発生し、部分的な応答が受信されなかった場合にプランを再実行する
- [SPARK-48172][SQL] JDBCDialectsの15.2へのバックポートでのエスケープの問題を修正
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショットの競合状態を修正
- [スパーク-48288] コネクタ キャスト式のソース データ型を追加する
- [SPARK-48310] [Python][CONNECT] キャッシュされたプロパティはコピーを返す必要があります
- [スパーク-48277] ErrorClassesJsonReader.getErrorMessage のエラーメッセージを改善
- [SPARK-47986][CONNECT][Python] デフォルトセッションがサーバーによって閉じられると、新しいセッションを作成できない
- 「[SPARK-47406][SQL] MYSQLDialect で TIMESTAMP と DATETIME を処理する」を元に戻します
- [SPARK-47994][SQL] SQLServerで列フィルターがプッシュダウンするときのCASE WHENのバグを修正
- [SPARK-47764][CORE][SQL] ShuffleCleanupModeに基づくシャッフル依存関係のクリーンアップ
- [SPARK-47921][CONNECT] ExecuteHolderでのExecuteJobTagの作成を修正
- [SPARK-48010][SQL] resolveExpressionでconf.resolverを繰り返し呼び出すのを避ける
- [SPARK-48146][SQL] With expression 子アサーションの集計関数を修正
- [SPARK-48180][SQL] TABLE引数を持つUDTF呼び出しが複数のPARTITION/ORDER BY式を囲む括弧を忘れるエラーを改善
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 15.1
「Databricks Runtime 15.1 (EoS)」を参照してください。
-
2024年10月22日
- [SPARK-49863][SQL] ネストされた構造体のnull可能性を保持するようにNormalizeFloatingNumbersを修正
- [SPARK-46632][SQL] 同等の三項式が異なる子を持つ場合の部分式の削除を修正
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- [SPARK-49829] ストリーム-ストリーム結合における状態ストアへの入力追加の最適化を見直しました(正確性修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月10日
- [SPARK-49688][CONNECT] 割り込みと実行プラン間のデータ競合を修正
- [SPARK-49743][SQL] GetArrayStructFieldsのプルーニング時にOptimizeCsvJsonExprがスキーマフィールドを変更しないようにすべき
- [バックポート] [SPARK-49474][SS] FlatMapGroupsWithStateユーザー関数エラーの分類エラークラス
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月25日
- [SPARK-49628][SQL] ConstantFolding は評価する前にステートフルな式をコピーすべきです
- [SPARK-48719][SQL] 最初のパラメーターがnullの場合のRegrSlopeとRegrInterceptの計算バグを修正
- [SPARK-49492][CONNECT] 非アクティブなExecutionHolderで再アタッチが試行されました
- [SPARK-49000][SQL] RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正
- [SPARK-49458][CONNECT][Python] ReattachExecuteを介してサーバー側のセッションIDを提供
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月17日
- [SPARK-49336][CONNECT] protobufメッセージを切り捨てるときにネストレベルを制限する
- [SPARK-49526][CONNECT] ArtifactManagerでWindowsスタイルのパスをサポート
- [SPARK-49409][CONNECT]デフォルト値のCONNECT_SESSION_PLAN_CACHE_SIZEを調整します
- [SPARK-43242][CORE] シャッフル破損診断で「予期しないタイプのBlockId」がスローされる問題を修正
- [SPARK-49366][CONNECT] データフレーム列の解像度でユニオンノードをリーフとして扱う
-
2024年8月29日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント:ブールデータフレームリーダーオプションを一貫して処理
- [SPARK-49056][SQL] ErrorClassesJsonReaderがnullを適切に処理できない
- [SPARK-48862] [Python][CONNECT] INFOレベルが有効になっていない
_proto_to_string
の呼び出しを避ける - [SPARK-49146][SS] 追加モードのストリーミングクエリで欠落しているウォーターマークに関連するアサーションエラーをエラーフレームワークに移動
-
2024年8月14日
- [スパーク-48941][スパーク-48970] Backport ML ライター/リーダーの修正
- [SPARK-48050][SS] クエリ開始時に論理プランをログに記録する
- [SPARK-48706][Python] 高階関数の Python UDF 内部エラーをスローしないようにする
- [SPARK-48597][SQL] 論理プランのテキスト表現にisStreamingプロパティのマーカーを導入
- [SPARK-49065][SQL] レガシーフォーマッタ/パーサーでのリベースは、JVM以外のデフォルトタイムゾーンをサポートする必要がある
- [SPARK-49047][Python][CONNECT] ログ記録のためにメッセージを切り捨てる
- [SPARK-48740][SQL] 欠落しているウィンドウ指定エラーを早期にキャッチ
-
2024年8月1日
- サーバレス コンピュート for ノートブック と ジョブでは、ANSI SQL モードはデフォルトによって有効になっています。 サポートされている Spark 構成パラメーターを参照してください。
- 共有アクセス モードで構成されたコンピュートでは、 Kafka バッチの読み取りと書き込みに、構造化ストリーミングに関するドキュメントと同じ制限が適用されるようになりました。 「Unity Catalog 標準アクセス モードのストリーミングの制限事項と要件」を参照してください。
SHOW CREATE TABLE
ステートメントからの出力に、マテリアライズドビューまたはストリーミングテーブルで定義された行フィルタまたはカラムマスクが含まれるようになりました。SHOW CREATE TABLEを参照してください。行フィルターと列マスクの詳細については、「 行フィルターと列マスクを使用した機密性の高いテーブル データのフィルター」を参照してください。- [SPARK-48544][SQL] 空のTreeNode BitSetsのメモリ負荷を軽減
- [SPARK-46957][CORE] 移行されたシャッフルファイルを廃止すると、エグゼキューターからクリーンアップできる必要があります
- [SPARK-47202][Python] tzinfoで日付時間を壊すタイプミスを修正
- [SPARK-48713][SQL] baseObjectがバイト配列の場合にUnsafeRow.pointToのインデックス範囲チェックを追加
- [SPARK-48896] [SPARK-48909] [SPARK-48883] バックポートSpark MLライターの修正
- [SPARK-48810][CONNECT] セッション停止() APIはべき等であり、セッションがすでにサーバーによって閉じられている場合に失敗しないようにする必要があります
- [SPARK-48873][SQL] JSONパーサーでUnsafeRowを使用します。
- [SPARK-48934][SS] applyInPandasWithStateのタイムアウトを設定するために、Pythonの日時型が正しく変換されません
- [SPARK-48705][Python] ワーカーがPySparkで始まる場合は、ワーカーを明示的に使用してください
- [SPARK-48889][SS] testStreamが終了する前にステートストアをアンロードするように
- [SPARK-48047][SQL] 空のTreeNodeタグのメモリ負荷を軽減
- [SPARK-48463] ネストされた入力列をサポートする StringIndexer を作成する
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年7月11日
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
.checkpoint()
を使用して、DataFrame の有効期間を通じてテーブルの状態を保持します。 - Snowflake JDBC ドライバーがバージョン3.16.1に更新されました。
- このリリースには、Databricks Container Services で実行しているときに Spark UI の [環境] タブが正しく表示されない問題の修正が含まれています。
- サーバレス コンピュート for ノートブック と ジョブでは、ANSI SQL モードはデフォルトによって有効になっています。 サポートされている Spark 構成パラメーターを参照してください。
- データの読み取り時に無効なパーティションを無視するために、 Parquet、 ORC、 CSV、 JSONなどのファイルベースのデータソースで ignoreInvalidPartitionPaths データソース オプションを true に設定できます。 たとえば、spark.read.format("Parquet").option("ignoreInvalidPartitionPaths", "true").load(...)`. SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データソースオプションは SQL 設定よりも優先されます。 この設定は、デフォルトでは false です。
- [SPARK-48383][SS] KafkaのstartOffsetオプションで、不一致のパーティションに対してより良いエラーをスローするように修正
- [SPARK-48481][SQL][SS] ストリーミングデータセットに対してOptimizeOneRowPlanを適用しない
- [SPARK-48100][SQL] スキーマで選択されていないネストされた構造フィールドをスキップする問題を修正
- [SPARK-47463] [SQL] V2Predicateを使用して、戻り値の型がブール値で式をラップする
- [SPARK-48445][SQL] 高価な子と UDF をインライン化しないでください
- [SPARK-48292][CORE] 元に戻す [SPARK-39195][SQL] コミットされたファイルがタスクのステータスと一致しない場合、Spark OutputCommitCoordinator はステージを中止する必要があります
- [SPARK-48566][Python] UDTF analyze()がselectとpartitionColumnsの両方を使用する場合にパーティションインデックスが正しくないバグを修正
- [SPARK-48648][Python][CONNECT] SparkConnectClient.tagsを適切にスレッドローカルに
- [SPARK-48503][SQL] 誤って許可されていた非等価列に対するgroup-byを使用した無効なスカラーサブクエリを修正
- [SPARK-48252][SQL] 必要に応じてCommonExpressionRefを更新
- [SPARK-48475] [Python] PySparkで_get_jvm_functionを最適化します。
- [SPARK-48294][SQL] nestedTypeMissingElementTypeErrorで小文字を処理する
- [スパーク-48286] デフォルトの式が存在する列の分析を修正 - ユーザー向けのエラーを追加
- [SPARK-47309][SQL] XML: 値タグのスキーマ推論テストを追加
- [SPARK-47309][SQL][XML] スキーマ推論単体テストを追加
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifierの遅延書き換えを修正
- オペレーティング システムのセキュリティ更新プログラム。
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
-
2024年6月17日
applyInPandasWithState()
は、共有クラスターで使用できます。- Photon TopKを使用したランクウィンドウの最適化が構造体を含むパーティションを誤って処理するバグを修正しました。
- [SPARK-48310] [Python][CONNECT] キャッシュされたプロパティはコピーを返す必要があります
- [SPARK-48276] [Python][CONNECT] 不足している
__repr__
メソッドを追加SQLExpression
- [スパーク-48277] ErrorClassesJsonReader.getErrorMessage のエラーメッセージを改善
- [SPARK-47764][CORE][SQL] ShuffleCleanupModeに基づくシャッフル依存関係のクリーンアップ
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年5月21日
- try_divide() 関数で、小数点を含む入力が予期しない例外を引き起こすバグを修正しました。
- [SPARK-48173][SQL] CheckAnalysis はクエリプラン全体を表示する必要があります
- [SPARK-48016][SQL] 小数点を使用する場合のtry_divide関数のバグを修正
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショットの競合状態を修正
- [SPARK-48197][SQL] 無効なラムダ関数のアサートエラーを回避
- [SPARK-48180][SQL] TABLE引数を持つUDTF呼び出しが複数のPARTITION/ORDER BY式を囲む括弧を忘れるエラーを改善
- [SPARK-48014][SQL] EvaluatePythonのmakeFromJavaエラーをユーザー向けのエラーに変更
- [SPARK-48056][CONNECT][Python] SESSION_NOT_FOUNDエラーが発生し、部分的な応答が受信されなかった場合にプランを再実行する
- [SPARK-48146][SQL] With expression 子アサーションの集計関数を修正
- [SPARK-47994][SQL] SQLServerで列フィルターがプッシュダウンするときのCASE WHENのバグを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年5月9日
- [SPARK-47543][CONNECT][Python] Pandas DataFrame から辞書をMapTypeとして推論して DataFrame の作成を許可する
- [SPARK-47739][SQL] 登録する logical avro type
- [SPARK-48044] [Python][CONNECT] キャッシュ
DataFrame.isStreaming
- [SPARK-47855][CONNECT]サポートされていないリストに
spark.sql.execution.arrow.pyspark.fallback.enabled
を追加 - [SPARK-48010][SQL] resolveExpressionでconf.resolverを繰り返し呼び出すのを避ける
- [SPARK-47941] [SS] [接続] ForeachBatchワーカーの初期化エラーをユーザーに伝播 PySpark
- [SPARK-47819][CONNECT][Cherry-pick-15.0]実行クリーンアップに非同期コールバックを使用
- [SPARK-47956][SQL] 未解決のLCA参照のサニティチェック
- [SPARK-47839][SQL] RewriteWithExpressionの集約バグを修正
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRangeをスローするときにnullのgroupIdがパラメータの欠落エラーを引き起こす問題を修正
- [SPARK-47371] [SQL] XML: CDATAで見つかった行タグを無視する
- [SPARK-47907][SQL] 設定の下に bang を置く
- [SPARK-47895][SQL]すべてのグループはべき等であるべきです
- [SPARK-47973][CORE] SparkContext.stop()の通話サイトのログ そして後で SparkContext.assertNotStopped()
- [SPARK-47986][CONNECT][Python] デフォルトセッションがサーバーによって閉じられると、新しいセッションを作成できない
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 15.0
「Databricks Runtime 15.0 (EoS)」を参照してください。
-
2024年5月30日
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
dbutils.widgets.getAll()
がサポートされるようになりました。
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
-
2024年4月25日
- [SPARK-47786] SELECT DISTINCT () は SELECT DISTINCT struct() にならないようにしてください (以前の動作に戻す)
- [SPARK-47802][SQL] ( )をstruct()の意味から 意味*に戻します
- [SPARK-47509][SQL] ラムダ関数および高階関数のサブクエリ式をブロック
- [スパーク-47722] RocksDBのバックグラウンド作業が終了するまで待ってから閉めます
- [SPARK-47081][CONNECT][FOLLOW] プログレスハンドラーのユーザビリティを改善
- [SPARK-47694][CONNECT] クライアント側で最大メッセージサイズを設定可能に
- [ SPARK-47669] [SQL][ CONNECT][Python] 追加
Column.try_cast
- [SPARK-47664][Python][CONNECT][Cherry-pick-15.0] キャッシュされたスキーマで列名を検証します
- [SPARK-47818][CONNECT][Cherry-pick-15.0] SparkConnectPlannerにプランキャッシュを導入し、Analyzeリクエストのパフォーマンスを向上させる
- [SPARK-47704][SQL] JSON spark.sqlすると「java.lang.ClassCastException」で解析が失敗する。JSON.enablePartialResults が有効になっている
- [SPARK-47755][CONNECT]個別の値の数が多すぎる場合、ピボットが失敗するはずです
- [SPARK-47713][SQL][CONNECT] 自己結合の失敗を修正
- [SPARK-47812][CONNECT] ForEachBatch ワーカーの SparkSession のシリアル化をサポート
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
無効なプランで失敗する - [SPARK-47862][Python][CONNECT]プロトファイルの生成を修正
- [SPARK-47800][SQL] 識別子から tableIdentifier への変換のための新しいメソッドを作成
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月3日
-
( 行動変容 )コンピュートタイプ間で一貫した動作を確保するために、共有クラスター上の PySpark UDFs は、非分離および割り当てられたクラスター上の UDFs の動作と一致するようになりました。 この更新プログラムには、既存のコードを中断する可能性のある次の変更が含まれています。
- 戻り値の型が
string
の UDF は、string
以外の値をstring
値に暗黙的に変換しなくなりました。 以前は、戻り値の型がstr
の UDF は、戻り値の実際のデータ型に関係なく、戻り値をstr()
関数でラップしていました。 - 戻り値の型が
timestamp
UDF は、timezone
を持つtimestamp
への変換を暗黙的に適用しなくなりました。 - Sparkクラスター構成
spark.databricks.sql.externalUDF.*
、共有クラスター上のPySpark UDFs には適用されなくなりました。 - Spark クラスター設定
spark.databricks.safespark.externalUDF.plan.limit
PySpark UDF に影響を与えなくなったため、PySpark UDF のクエリごとに 5 つの UDFs というパブリック プレビューの制限がなくなりました。 - Spark クラスター構成
spark.databricks.safespark.sandbox.size.default.mib
、共有クラスター上の PySpark UDF には適用されなくなりました。代わりに、システム上の使用可能なメモリが使用されます。 PySpark UDFs のメモリを制限するには、最小値を100m
にしたspark.databricks.pyspark.udf.isolation.memoryLimit
を使用します。
- 戻り値の型が
-
TimestampNTZ
データ型が、リキッドクラスタリングを使用したクラスタリング列としてサポートされるようになりました。「Deltaテーブルにリキッドクラスタリングを使用する」を参照してください。 -
[SPARK-47218][SQL] XML: XML トークナイザーでコメント付きの行タグを無視する
-
[SPARK-46990][SQL] イベントハブによって出力される空のAvroファイルの読み込みを修正
-
[SPARK-47033][SQL] EXECUTE IMMEDIATE USINGがセッション変数名を認識しない問題を修正
-
[SPARK-47368][SQL] ParquetRowConverterのinferTimestampNTZ設定チェックを削除
-
[SPARK-47561][SQL] エイリアスに関するアナライザールールの順序の問題を修正
-
[SPARK-47638] [PS] [CONNECT] PSで列名の検証をスキップします
-
[SPARK-46906][BACKPORT][SS] ストリーミングのステートフルなオペレーター変更のチェックを追加
-
[SPARK-47569][SQL] バリアントの比較を許可しません。
-
[SPARK-47241][SQL] ExtractGeneratorのルール順序の問題を修正
-
[SPARK-47218] [SQL] XML: SchemaOfXmlがDROPMALFORMEDモードで失敗するように変更
-
[SPARK-47300][SQL] 識別子
quoteIfNeeded
数字で始まる引用符で囲むべき -
[SPARK-47009][SQL][照合] 照合順序のテーブル作成サポートを有効にする
-
[SPARK-47322][Python][CONNECT] 列名の重複処理
withColumnsRenamed
一貫性を保つようにしましたwithColumnRenamed
-
[SPARK-47544] [Python] SparkSession ビルダーメソッドがVisual Studio Codeのインテリセンスと互換性がない
-
[SPARK-47511][SQL] IDを再割り当てしてWith式を正規化
-
[スパーク-47385] タプル エンコーダーを Option 入力で固定します。
-
[SPARK-47200][SS] Foreachバッチシンクのユーザー関数エラーのクラスを修正
-
[SPARK-47135][SS] Kafkaデータ損失例外のエラークラスを実装
-
[SPARK-38708][SQL] Hive metastore クライアントを3.1.3にアップグレードする Hive 3.1 用
-
[SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に、LocalRelationのisStreamingフラグに正しくタグを付けるようにPruneFiltersを修正
-
[SPARK-47380][CONNECT] サーバー側でSparkSessionが同じであることを確認してください
-
オペレーティング システムのセキュリティ更新プログラム。
-
Databricks Runtime 14.2
「Databricks Runtime 14.2 (EoS)」を参照してください。
-
2024年10月22日
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年10月10日
- [SPARK-49743][SQL] GetArrayStructFieldsのプルーニング時にOptimizeCsvJsonExprがスキーマフィールドを変更しないようにすべき
- [バックポート] [SPARK-49474][SS] FlatMapGroupsWithStateユーザー関数エラーの分類エラークラス
-
2024年9月25日
- [SPARK-48719][SQL] 「RegrS...
- [SPARK-49628][SQL] ConstantFolding は評価する前にステートフルな式をコピーすべきです
- [SPARK-49000][SQL] RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正
- [SPARK-43242][CORE] シャッフル破損診断で「予期しないタイプのBlockId」がスローされる問題を修正
- [SPARK-46601] [CORE] handleStatusMessageのログエラーを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月17日
- [SPARK-49526][CONNECT] ArtifactManagerでWindowsスタイルのパスをサポート
-
2024年8月29日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント:ブールデータフレームリーダーオプションを一貫して処理
- [SPARK-49146][SS] 追加モードのストリーミングクエリで欠落しているウォーターマークに関連するアサーションエラーをエラーフレームワークに移動
- [SPARK-49056][SQL] ErrorClassesJsonReaderがnullを適切に処理できない
-
2024年8月14日
- [SPARK-48050][SS] クエリ開始時に論理プランをログに記録する
- [SPARK-48597][SQL] 論理プランのテキスト表現にisStreamingプロパティのマーカーを導入
- [SPARK-49065][SQL] レガシーフォーマッタ/パーサーでのリベースは、JVM以外のデフォルトタイムゾーンをサポートする必要がある
- [SPARK-48706][Python] 高階関数の Python UDF 内部エラーをスローしないようにする
-
2024年8月1日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正を適用する前は、これらのクラスの 1 つのインスタンスにnull
値が含まれている場合に、ArrayIndexOutOfBoundsException
がスローされたり、正しくないデータが返されたりすることがありました。 SHOW CREATE TABLE
ステートメントからの出力に、マテリアライズドビューまたはストリーミングテーブルで定義された行フィルタまたはカラムマスクが含まれるようになりました。SHOW CREATE TABLEを参照してください。行フィルターと列マスクの詳細については、「 行フィルターと列マスクを使用した機密性の高いテーブル データのフィルター」を参照してください。- [SPARK-47202][Python] tzinfoで日付時間を壊すタイプミスを修正
- [SPARK-48705][Python] ワーカーがPySparkで始まる場合は、ワーカーを明示的に使用してください
- オペレーティング システムのセキュリティ更新プログラム。
- このリリースには、Spark Java インターフェイスの
-
2024年7月11日
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
.checkpoint()
を使用して、DataFrame の有効期間を通じてテーブルの状態を保持します。 - Snowflake JDBC ドライバーがバージョン3.16.1に更新されました
- このリリースには、Databricks Container Services で実行しているときに Spark UI の [環境] タブが正しく表示されない問題の修正が含まれています。
- [SPARK-48292][CORE] 元に戻す [SPARK-39195][SQL] コミットされたファイルがタスクのステータスと一致しない場合、Spark OutputCommitCoordinator はステージを中止する必要があります
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifierの遅延書き換えを修正
- [SPARK-48503][SQL] 誤って許可されていた非等価列に対するgroup-byを使用した無効なスカラーサブクエリを修正
- [SPARK-48481][SQL][SS] ストリーミングデータセットに対してOptimizeOneRowPlanを適用しない
- [SPARK-48475] [Python] PySparkで_get_jvm_functionを最適化します。
- [SPARK-48100][SQL] スキーマで選択されていないネストされた構造フィールドをスキップする問題を修正
- [SPARK-48445][SQL] 高価な子と UDF をインライン化しないでください
- [SPARK-48383][SS] KafkaのstartOffsetオプションで、不一致のパーティションに対してより良いエラーをスローするように修正
- オペレーティング システムのセキュリティ更新プログラム。
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
-
2024年6月17日
- Photon TopKを使用したランクウィンドウの最適化が構造体を含むパーティションを誤って処理するバグを修正しました。
- [SPARK-48276] [Python][CONNECT] 不足している
__repr__
メソッドを追加SQLExpression
- [スパーク-48277] ErrorClassesJsonReader.getErrorMessage のエラーメッセージを改善
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年5月21日
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
dbutils.widgets.getAll()
がサポートされるようになりました。 - [SPARK-48173][SQL] CheckAnalysis はクエリプラン全体を表示する必要があります
- [SPARK-48197][SQL] 無効なラムダ関数のアサートエラーを回避
- [SPARK-47994][SQL] SQLServerで列フィルターがプッシュダウンするときのCASE WHENのバグを修正
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショットの競合状態を修正
- オペレーティング システムのセキュリティ更新プログラム。
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
-
2024年5月9日
- [SPARK-48044] [Python][CONNECT] キャッシュ
DataFrame.isStreaming
- [SPARK-47956][SQL] 未解決のLCA参照のサニティチェック
- [SPARK-47371] [SQL] XML: CDATAで見つかった行タグを無視する
- [SPARK-47812][CONNECT] ForEachBatch ワーカーの SparkSession のシリアル化をサポート
- [SPARK-47895][SQL]すべてのグループはべき等であるべきです
- [SPARK-47973][CORE] SparkContext.stop()の通話サイトのログ そして後で SparkContext.assertNotStopped()
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-48044] [Python][CONNECT] キャッシュ
-
2024年4月25日
- [SPARK-47704][SQL] JSON spark.sqlすると「java.lang.ClassCastException」で解析が失敗する。JSON.enablePartialResults が有効になっている
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
無効なプランで失敗する - オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月11日
- [SPARK-47309][SQL][XML] スキーマ推論単体テストを追加
- [SPARK-46990][SQL] イベントハブによって出力される空のAvroファイルの読み込みを修正
- [SPARK-47638] [PS] [CONNECT] PSで列名の検証をスキップします
- [SPARK-47509][SQL] ラムダ関数および高階関数のサブクエリ式をブロック
- [SPARK-38708][SQL] Hive metastore クライアントを3.1.3にアップグレードする Hive 3.1 用
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月1日
- [SPARK-47322][Python][CONNECT] 列名の重複処理
withColumnsRenamed
一貫性を保つようにしましたwithColumnRenamed
- [スパーク-47385] タプル エンコーダーを Option 入力で固定します。
- 【スパーク-47070】 サブクエリの書き換え後の無効な集計を修正
- [SPARK-47218] [SQL] XML: SchemaOfXmlがDROPMALFORMEDモードで失敗するように変更
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に、LocalRelationのisStreamingフラグに正しくタグを付けるようにPruneFiltersを修正
- [SPARK-47218][SQL] XML: XML トークナイザーでコメント付きの行タグを無視する
- 「[SPARK-46861][CORE] DAGSchedulerのデッドロックを回避する」を差し戻します
- [SPARK-47300][SQL] 識別子
quoteIfNeeded
数字で始まる引用符で囲むべき - [SPARK-47368][SQL] ParquetRowConverterのinferTimestampNTZ設定チェックを削除
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-47322][Python][CONNECT] 列名の重複処理
-
2024年3月14日
- [SPARK-47035][SS][CONNECT]クライアント側リスナーのプロトコル
- [SPARK-47121][CORE] StandaloneSchedulerBackendのシャットダウン中にRejectedExecutionExceptionsを回避
- [SPARK-47145][SQL] V2戦略の行データソーススキャン実行にテーブル識別子を渡します。
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruningヘルパー関数がある
- [SPARK-47167][SQL] JDBC匿名リレーションの具象クラスを追加
- [SPARK-47129][CONNECT][SQL] キャッシュ接続プランを適切に作成
ResolveRelations
- [SPARK-47044][SQL] JDBC外部データソースに対して実行したクエリを追加して、出力を説明する
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年2月29日
- MERGE コマンドでローカル コレクションをソース として使用すると、操作メトリクス numSourceRows が正しい行数の 2 倍を報告する可能性がある問題を修正しました。
- 定義されたロケーションでスキーマを作成するには、ANY FILE に対する SELECT 権限と MODIFY 権限がユーザーに必要になりました。
- Autoloader、read_files、COPY INTO、DLT、DBSQL を使用して XML ファイルを取り込むことができるようになりました。 XML ファイルのサポートにより、スキーマの自動推論と展開、型の不一致によるデータの救出、XSD を使用した XML の検証、from_xml、schema_of_xml、to_xml などの SQL 式のサポートが可能になります。 詳細については、 XML ファイルのサポート を参照してください。以前に外部の spark-xml パッケージを使用していた場合は、移行ガイダンスについて こちら を参照してください。
- [SPARK-46954][SQL] XML: InputStreamReader を BufferedReader でラップします
- [SPARK-46630][SQL] XML: 書き込み時にXML要素名を検証する
- [SPARK-46248][SQL] XML: ignoreCorruptFilesおよびignoreMissingFilesオプションのサポート
- [SPARK-46954][SQL] XML:スキーマインデックスルックアップの最適化
- [SPARK-47059][SQL] ALTER COLUMN v1 コマンドのエラーコンテキストをアタッチ
- [SPARK-46993][SQL] セッション変数の定数の折り畳みを修正
-
2024年2月8日
- Unity Catalog Materialized View に対するチェンジデータフィード (CDF) クエリはサポートされていないため、Unity Catalog Materialized View で CDF クエリを実行しようとするとエラーが返されます。Unity Catalog ストリーミングテーブルは、 Databricks Runtime 14.1 以降の非
APPLY CHANGES
テーブルに対する CDF クエリをサポートしています。 CDFUnity Catalog クエリは、Databricks Runtime 14.0 以前の ストリーミングテーブルではサポートされていません。 - [スパーク-46930] Avro の Union 型フィールドのカスタム プレフィックスのサポートを追加します。
- [スパーク-46822] 尊重 spark.sql.legacy.charVarcharAsString JDBCでJDBCタイプを触媒タイプにキャストする場合。
- [スパーク-46952] XML: 破損したレコードのサイズを制限します。
- [スパーク-46644] SQLMetric の add と merge を isZero を使用するように変更します。
- [スパーク-46861] DAGSchedulerのデッドロックを回避します。
- [スパーク-46794] LogicalRDD 制約からサブクエリを削除します。
- [スパーク-46941] SizeBasedWindowFunction が含まれている場合、top-k 計算のウィンドウ グループ制限ノードを挿入できません。
- [SPARK-46933] クエリ実行時間メトリクスをJDBCRDDを使用するコネクタに追加します。
- オペレーティング システムのセキュリティ更新プログラム。
- Unity Catalog Materialized View に対するチェンジデータフィード (CDF) クエリはサポートされていないため、Unity Catalog Materialized View で CDF クエリを実行しようとするとエラーが返されます。Unity Catalog ストリーミングテーブルは、 Databricks Runtime 14.1 以降の非
-
2024年1月31日
- [スパーク-46382] XML:
ignoreSurroundingSpaces
のドキュメントを更新します。 - [スパーク-46382] XML: 要素間に散在する値をキャプチャします。
- [SPARK-46763] 重複する属性の ReplaceDeduplicateWithAggregate でのアサーションの失敗を修正します。
- 元に戻す [SPARK-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [スパーク-46382] XML: デフォルトの ignoreSurroundingSpaces は true です。
- [SPARK-46633] 長さがゼロのブロックを処理するようにAvroリーダーを修正しました。
- [SPARK-45964] Catalyst パッケージの下の XML および JSON パッケージのプライベート sql アクセサを削除します。
- [スパーク-46581] AccumulatorV2のisZeroのコメントを更新しました。
- [SPARK-45912] XSDToSchema API の機能強化: クラウド ストレージのアクセシビリティに関する HDFS API の変更。
- 【スパーク-45182】 チェックサムによって決定された親の不確定ステージを再試行した後、古いステージからのタスクの完了を無視します。
- [スパーク-46660] ReattachExecute は、SessionHolder の生存状態の更新を要求します。
- 【スパーク-46610】 テーブルの作成は、オプションのキーの値がない場合に例外をスローする必要があります。
- [SPARK-46383]
TaskInfo.accumulables()
の寿命を短くすることで、ドライバー ヒープの使用量を削減します。 - [スパーク-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- [スパーク-46684] CoGroup.applyInPandas/Arrow が引数を正しく渡すように修正しました。
- [SPARK-46676] プランの正規化でdropDuplicatesWithinWatermarkが失敗しないように修正しました。
- [スパーク-45962]
treatEmptyValuesAsNulls
を削除し、代わりに XML でnullValue
オプションを使用します。 - 【スパーク-46541】 自己結合のあいまいな列参照を修正します。
- [スパーク-46599] XML: TypeCoercion.findTightestCommonType を使用 互換性チェックのため。
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-46382] XML:
-
2024年1月17日
- Photonクエリによって返されるexplainプランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合にcausedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信する際のレイテンシーの増加を避けるため、このメンテナンスリリースには、JDK バグ JDK-8293562 を修正するための JDK 8 インストールのパッチが含まれています。
- [SPARK-46261] ディクテーション/マップの順序を維持する
DataFrame.withColumnsRenamed
。 - 【スパーク-46538】
ALSModel.transform
のあいまいな列参照の問題を修正します。 - [SPARK-46145] テーブルまたはビューが見つからない場合、spark.catalog.listTables が例外をスローしない。
- [SPARK-46484]
resolveOperators
ヘルパー関数がプラン ID を保持するようにします。 - [スパーク-46394] spark.catalog.listDatabases() を修正
spark.sql.legacy.keepCommandOutputSchema
true に設定されている場合に、特殊文字を含むスキーマで問題が発生します。 - [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- [SPARK-46446] 相関 OFFSET を持つサブクエリを無効にして、正確性のバグを修正します。
- 【スパーク-46152】 XML: XML スキーマ推論に DecimalType のサポートを追加します。
- 【スパーク-46602】 ビュー/テーブルが存在しない場合に、ビュー作成で
allowExisting
を伝達します。 - [SPARK-45814] ArrowConverters.createEmptyArrowBatch を作成します。 メモリリークを避けるために close() を呼び出します。
- 【スパーク-46058】 privateKeyPassword に個別のフラグを追加します。
- 【スパーク-46132】 RPC SSL の JKS キーのキー パスワードをサポートします。
- 【スパーク-46600】 SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- 【スパーク-46478】 文字列に oracle varchar(255) を使用するように SPARK-43049 を元に戻します。
- [スパーク-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しないでください。
- 【スパーク-46153】 XML: TimestampNTZType のサポートを追加します。
- [SPARK-46056][BACKPORT] byteArrayDecimalTypeのデフォルト値で読み取られたNPEのParquetを修正。
- [SPARK-46466] ベクトル化された Parquet リーダーは、タイムスタンプ ntz のリベースを決して行わないでください。
- [SPARK-46260]
DataFrame.withColumnsRenamed
は辞書の順序を尊重する必要があります。 - 【スパーク-46036】 raise_error関数から error-class を削除します。
- [SPARK-46294] init と 0 値のセマンティクスをクリーンアップします。
- 【スパーク-46173】 日付解析中に trimAll 呼び出しをスキップします。
- 【スパーク-46250】 デフレークtest_parity_listener。
- 【スパーク-46587】 XML: XSD の大きな整数変換を修正しました。
- [スパーク-46396] タイムスタンプの推論では、例外をスローしないでください。
- 【スパーク-46241】 エラー処理ルーチンを修正して、無限再帰に陥らないようにしました。
- [スパーク-46355] XML: 読み取り完了時に InputStreamReader を閉じます。
- 【スパーク-46370】 列のデフォルトを変更した後にテーブルからクエリを実行するときのバグを修正しました。
- [スパーク-46265] AddArtifact RPC のアサーションにより、接続クライアントは古いクラスターと互換性がなくなります。
- [SPARK-46308] 再帰的なエラー処理を禁止します。
- [スパーク-46337]
PLAN_ID_TAG
を保持するCTESubstitution
させます。
- Photonクエリによって返されるexplainプランの
-
2023年12月14日
- 【スパーク-46141】 spark.sql.legacy.ctePrecedencePolicy のデフォルトを CORRECTED に変更します。
- 【スパーク-45730】 ReloadingX509TrustManagerSuiteの不安定さを軽減します。
- [スパーク-45852] ロギング中の再帰エラーに適切に対処します。
- [スパーク-45808] SQL 例外のエラー処理を改善しました。
- [SPARK-45920] 順序数によるグループはべき等であるべきです。
- 「[SPARK-45649]
OffsetWindowFunctionFrame
の準備フレームワークを統一する」を元に戻します。 - [スパーク-45733] 複数の再試行ポリシーをサポートします。
- 【スパーク-45509】 Spark Connect の df 列参照動作を修正しました。
- [スパーク-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- [スパーク-45905] 10 進数型間で最も一般的でない型は、整数を最初に保持する必要があります。
- 【スパーク-45136】 アンモナイトサポートでClosureCleanerを強化します。
- [スパーク-46255] 複合型の -> 文字列変換をサポートします。
- [スパーク-45859] ml.functions の UDF オブジェクトを遅延させます。
- 【スパーク-46028】 入力列を受け入れる
Column.__getitem__
にします。 - [スパーク-45798] サーバ・サイド・セッション ID をアサートします。
- [SPARK-45892] オプティマイザー計画の検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45844] XML の大文字と小文字を区別しない実装を実装します。
- [スパーク-45770]
Dataframe.drop
のプランDataFrameDropColumns
をご紹介します。 - [スパーク-44790] XML: Python、connect、SQL の to_xml 実装とバインディング。
- [スパーク-45851]Scalaクライアントで複数のポリシーをサポートします。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年11月29日
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - [スパーク-45852] Spark Connect の Python クライアントは、テキスト変換中に再帰エラーをキャッチするようになりました。
- [スパーク-45808] SQL 例外のエラー処理が改善されました。
- [SPARK-45920]
GROUP BY
序数は序数を置き換えません。 - [SPARK-45649]を元に戻します。
- [スパーク-45733] 複数の再試行ポリシーのサポートが追加されました。
- 【スパーク-45509】 Spark Connect の
df
列参照の動作を修正しました。 - [スパーク-45655]
CollectMetrics
内のAggregateFunctions
内の非決定論的な式を許可します。 - [スパーク-45905] 10 進数型間で最も一般的でない型は、整数を最初に保持するようになりました。
- 【スパーク-45136】 アンモナイトのサポートで
ClosureCleaner
を強化します。 - [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - [SPARK-46028]
Column.__getitem__
入力列を受け入れます。 - [スパーク-45798] サーバ・サイド・セッション ID をアサートします。
- [SPARK-45892] オプティマイザー計画の検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45844] XML の大文字と小文字を区別しない実装を実装します。
- [スパーク-45770]
Dataframe.drop
用のDataFrameDropColumns
による固定カラム分解能。 - [スパーク-44790] Python、Spark Connect、SQL の
to_xml
実装とバインディングが追加されました。 - [スパーク-45851] Scala クライアントで複数のポリシーのサポートが追加されました。
- オペレーティング システムのセキュリティ更新プログラム。
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
Databricks Runtime 14.1
「Databricks Runtime 14.1 (EoS)」を参照してください。
-
2024年12月10日
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年11月26日
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年11月5日
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
-
2024年10月22日
- [SPARK-49782][SQL] ResolveDataFrameDropColumnsルールがUnresolvedAttributeを子出力で解決する
- [スパーク-49905] ステートフル オペレーターに専用の ShuffleOrigin を使用して、シャッフルが AQE から変更されるのを防ぎます
-
2024年10月10日
- [バックポート] [SPARK-49474][SS] FlatMapGroupsWithStateユーザー関数エラーの分類エラークラス
- [SPARK-49743][SQL] GetArrayStructFieldsのプルーニング時にOptimizeCsvJsonExprがスキーマフィールドを変更しないようにすべき
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月25日
- [SPARK-49628][SQL] ConstantFolding は評価する前にステートフルな式をコピーすべきです
- [SPARK-43242][CORE] シャッフル破損診断で「予期しないタイプのBlockId」がスローされる問題を修正
- [SPARK-48719][SQL] 「RegrS...
- [SPARK-49000][SQL] RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正
- [SPARK-46601] [CORE] handleStatusMessageのログエラーを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年9月17日
- [SPARK-49526][CONNECT] ArtifactManagerでWindowsスタイルのパスをサポート
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年8月29日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント:ブールデータフレームリーダーオプションを一貫して処理
- [SPARK-49056][SQL] ErrorClassesJsonReaderがnullを適切に処理できない
-
2024年8月14日
- [SPARK-48706][Python] 高階関数の Python UDF 内部エラーをスローしないようにする
- [SPARK-48597][SQL] 論理プランのテキスト表現にisStreamingプロパティのマーカーを導入
- [SPARK-49065][SQL] レガシーフォーマッタ/パーサーでのリベースは、JVM以外のデフォルトタイムゾーンをサポートする必要がある
- [SPARK-48050][SS] クエリ開始時に論理プランをログに記録する
-
2024年8月1日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正を適用する前は、これらのクラスの 1 つのインスタンスにnull
値が含まれている場合に、ArrayIndexOutOfBoundsException
がスローされたり、正しくないデータが返されたりすることがありました。 SHOW CREATE TABLE
ステートメントからの出力に、マテリアライズドビューまたはストリーミングテーブルで定義された行フィルタまたはカラムマスクが含まれるようになりました。SHOW CREATE TABLEを参照してください。行フィルターと列マスクの詳細については、「 行フィルターと列マスクを使用した機密性の高いテーブル データのフィルター」を参照してください。- [SPARK-48705][Python] ワーカーがPySparkで始まる場合は、ワーカーを明示的に使用してください
- [SPARK-47202][Python] tzinfoで日付時間を壊すタイプミスを修正
- オペレーティング システムのセキュリティ更新プログラム。
- このリリースには、Spark Java インターフェイスの
-
2024年7月11日
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
.checkpoint()
を使用して、DataFrame の有効期間を通じてテーブルの状態を保持します。 - このリリースには、Databricks Container Services で実行しているときに Spark UI の [環境] タブが正しく表示されない問題の修正が含まれています。
- [SPARK-48475] [Python] PySparkで_get_jvm_functionを最適化します。
- [SPARK-48445][SQL] 高価な子と UDF をインライン化しないでください
- [SPARK-48481][SQL][SS] ストリーミングデータセットに対してOptimizeOneRowPlanを適用しない
- [SPARK-48292][CORE] 元に戻す [SPARK-39195][SQL] コミットされたファイルがタスクのステータスと一致しない場合、Spark OutputCommitCoordinator はステージを中止する必要があります
- [SPARK-48503][SQL] 誤って許可されていた非等価列に対するgroup-byを使用した無効なスカラーサブクエリを修正
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifierの遅延書き換えを修正
- [SPARK-48100][SQL] スキーマで選択されていないネストされた構造フィールドをスキップする問題を修正
- [SPARK-48383][SS] KafkaのstartOffsetオプションで、不一致のパーティションに対してより良いエラーをスローするように修正
- オペレーティング システムのセキュリティ更新プログラム。
- (動作変更)DataFrames Deltaテーブル ソースに対してキャッシュされた は、ソース テーブルが上書きされた場合に無効になるようになりました。この変更により、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になります。
-
2024年6月17日
- Photon TopKを使用したランクウィンドウの最適化が構造体を含むパーティションを誤って処理するバグを修正しました。
- [SPARK-48276] [Python][CONNECT] 不足している
__repr__
メソッドを追加SQLExpression
- [スパーク-48277] ErrorClassesJsonReader.getErrorMessage のエラーメッセージを改善
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年5月21日
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
dbutils.widgets.getAll()
がサポートされるようになりました。 - [SPARK-47994][SQL] SQLServerで列フィルターがプッシュダウンするときのCASE WHENのバグを修正
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショットの競合状態を修正
- [SPARK-48173][SQL] CheckAnalysis はクエリプラン全体を表示する必要があります
- オペレーティング システムのセキュリティ更新プログラム。
- ( 動作変更 ) ノートブック内のすべてのウィジェット値を取得するための
-
2024年5月9日
- [SPARK-47371] [SQL] XML: CDATAで見つかった行タグを無視する
- [SPARK-47895][SQL]すべてのグループはべき等であるべきです
- [SPARK-47956][SQL] 未解決のLCA参照のサニティチェック
- [SPARK-48044] [Python][CONNECT] キャッシュ
DataFrame.isStreaming
- [SPARK-47973][CORE] SparkContext.stop()の通話サイトのログ そして後で SparkContext.assertNotStopped()
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月25日
- [SPARK-47704][SQL] JSON spark.sqlすると「java.lang.ClassCastException」で解析が失敗する。JSON.enablePartialResults が有効になっている
- [SPARK-47828][CONNECT][Python]
DataFrameWriterV2.overwrite
無効なプランで失敗する - オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月11日
- [SPARK-47638] [PS] [CONNECT] PSで列名の検証をスキップします
- [SPARK-38708][SQL] Hive metastore クライアントを3.1.3にアップグレードする Hive 3.1 用
- [SPARK-47309][SQL][XML] スキーマ推論単体テストを追加
- [SPARK-47509][SQL] ラムダ関数および高階関数のサブクエリ式をブロック
- [SPARK-46990][SQL] イベントハブによって出力される空のAvroファイルの読み込みを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年4月1日
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に、LocalRelationのisStreamingフラグに正しくタグを付けるようにPruneFiltersを修正
- [SPARK-47218][SQL] XML: XML トークナイザーでコメント付きの行タグを無視する
- [SPARK-47300][SQL] 識別子
quoteIfNeeded
数字で始まる引用符で囲むべき - [SPARK-47368][SQL] ParquetRowConverterのinferTimestampNTZ設定チェックを削除
- 【スパーク-47070】 サブクエリの書き換え後の無効な集計を修正
- [SPARK-47322][Python][CONNECT] 列名の重複処理
withColumnsRenamed
一貫性を保つようにしましたwithColumnRenamed
- 【スパーク-47300】 DecomposerSuiteの修正
- [SPARK-47218] [SQL] XML: SchemaOfXmlがDROPMALFORMEDモードで失敗するように変更
- [スパーク-47385] タプル エンコーダーを Option 入力で固定します。
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年3月14日
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruningヘルパー関数がある
- [SPARK-47145][SQL] V2戦略の行データソーススキャン実行にテーブル識別子を渡します。
- [SPARK-47167][SQL] JDBC匿名リレーションの具象クラスを追加
- [SPARK-47129][CONNECT][SQL] キャッシュ接続プランを適切に作成
ResolveRelations
- 「[SPARK-46861][CORE] DAGSchedulerのデッドロックを回避する」を差し戻します
- [SPARK-47044][SQL] JDBC外部データソースに対して実行したクエリを追加して、出力を説明する
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年2月29日
- MERGE コマンドでローカル コレクションをソース として使用すると、操作メトリクス numSourceRows が正しい行数の 2 倍を報告する可能性がある問題を修正しました。
- 定義されたロケーションでスキーマを作成するには、ANY FILE に対する SELECT 権限と MODIFY 権限がユーザーに必要になりました。
- Autoloader、read_files、COPY INTO、DLT、DBSQL を使用して XML ファイルを取り込むことができるようになりました。 XML ファイルのサポートにより、スキーマの自動推論と展開、型の不一致によるデータの救出、XSD を使用した XML の検証、from_xml、schema_of_xml、to_xml などの SQL 式のサポートが可能になります。 詳細については、 XML ファイルのサポート を参照してください。以前に外部の spark-xml パッケージを使用していた場合は、移行ガイダンスについて こちら を参照してください。
- [SPARK-46248][SQL] XML: ignoreCorruptFilesおよびignoreMissingFilesオプションのサポート
- [SPARK-47059][SQL] ALTER COLUMN v1 コマンドのエラーコンテキストをアタッチ
- [SPARK-46954][SQL] XML: InputStreamReader を BufferedReader でラップします
- [SPARK-46954][SQL] XML:スキーマインデックスルックアップの最適化
- [SPARK-46630][SQL] XML: 書き込み時にXML要素名を検証する
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年2月8日
- Unity Catalog マテリアライズドビューに対するチェンジデータフィード (CDF) クエリはサポートされていないため、Unity Catalog マテリアライズドビューを使用して CDF クエリを実行しようとするとエラーが返されます。Unity Catalog ストリーミングテーブルは、 Databricks Runtime 14.1 以降の非
APPLY CHANGES
テーブルに対する CDF クエリをサポートしています。 CDFUnity Catalog クエリは、Databricks Runtime 14.0 以前の ストリーミングテーブルではサポートされていません。 - [スパーク-46952] XML: 破損したレコードのサイズを制限します。
- 【スパーク-45182】 チェックサムによって決定された親の不確定ステージを再試行した後、古いステージからのタスクの完了を無視します。
- [スパーク-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46933] クエリ実行時間メトリクスをJDBCRDDを使用するコネクタに追加します。
- [スパーク-46861] DAGSchedulerのデッドロックを回避します。
- [スパーク-45582] 出力モードのストリーミング aggregation 内でコミットを呼び出した後、ストア インスタンスが使用されていないことを確認します。
- [スパーク-46930] Avro の Union 型フィールドのカスタム プレフィックスのサポートを追加します。
- [スパーク-46941] SizeBasedWindowFunction が含まれている場合、top-k 計算のウィンドウ グループ制限ノードを挿入できません。
- [スパーク-46396] タイムスタンプの推論では、例外をスローしないでください。
- [スパーク-46822] 尊重 spark.sql.legacy.charVarcharAsString JDBCでJDBCタイプを触媒タイプにキャストする場合。
- [スパーク-45957] 実行不可能なコマンドの実行プランを生成しないでください。
- オペレーティング システムのセキュリティ更新プログラム。
- Unity Catalog マテリアライズドビューに対するチェンジデータフィード (CDF) クエリはサポートされていないため、Unity Catalog マテリアライズドビューを使用して CDF クエリを実行しようとするとエラーが返されます。Unity Catalog ストリーミングテーブルは、 Databricks Runtime 14.1 以降の非
-
2024年1月31日
- [スパーク-46684] CoGroup.applyInPandas/Arrow が引数を正しく渡すように修正しました。
- [SPARK-46763] 重複する属性の ReplaceDeduplicateWithAggregate でのアサーションの失敗を修正します。
- [SPARK-45498] 補足情報: 古いステージの試行からのタスクの完了を無視します。
- [スパーク-46382] XML:
ignoreSurroundingSpaces
のドキュメントを更新します。 - [SPARK-46383]
TaskInfo.accumulables()
の寿命を短くすることで、ドライバー ヒープの使用量を削減します。 - [スパーク-46382] XML: デフォルトの ignoreSurroundingSpaces は true です。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [SPARK-46676] プランの正規化でdropDuplicatesWithinWatermarkが失敗しないように修正しました。
- [SPARK-46633] 長さがゼロのブロックを処理するようにAvroリーダーを修正しました。
- [SPARK-45912] XSDToSchema API の機能強化: クラウド ストレージのアクセシビリティに関する HDFS API の変更。
- [スパーク-46599] XML: TypeCoercion.findTightestCommonType を使用 互換性チェックのため。
- [スパーク-46382] XML: 要素間に散在する値をキャプチャします。
- [スパーク-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- 【スパーク-46610】 テーブルの作成は、オプションのキーの値がない場合に例外をスローする必要があります。
- [SPARK-45964] Catalyst パッケージの下の XML および JSON パッケージのプライベート sql アクセサを削除します。
- 元に戻す [SPARK-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- [スパーク-45962]
treatEmptyValuesAsNulls
を削除し、代わりに XML でnullValue
オプションを使用します。 - 【スパーク-46541】 自己結合のあいまいな列参照を修正します。
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年1月17日
- Photonクエリによって返されるexplainプランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合にcausedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信する際のレイテンシーの増加を避けるため、このメンテナンスリリースには、JDK バグ JDK-8293562 を修正するための JDK 8 インストールのパッチが含まれています。
- 【スパーク-46538】
ALSModel.transform
のあいまいな列参照の問題を修正します。 - [スパーク-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しないでください。
- [SPARK-46484]
resolveOperators
ヘルパー関数がプラン ID を保持するようにします。 - 【スパーク-46153】 XML: TimestampNTZType のサポートを追加します。
- 【スパーク-46152】 XML: XML スキーマ推論に DecimalType のサポートを追加します。
- [SPARK-46145] テーブルまたはビューが見つからない場合、spark.catalog.listTables が例外をスローしない。
- 【スパーク-46478】 文字列に oracle varchar(255) を使用するように SPARK-43049 を元に戻します。
- [スパーク-46394] spark.catalog.listDatabases() を修正
spark.sql.legacy.keepCommandOutputSchema
true に設定されている場合に、特殊文字を含むスキーマで問題が発生します。 - [スパーク-46337]
PLAN_ID_TAG
を保持するCTESubstitution
させます。 - [SPARK-46466] ベクトル化された Parquet リーダーは、タイムスタンプ ntz のリベースを決して行わないでください。
- 【スパーク-46587】 XML: XSD の大きな整数変換を修正しました。
- [SPARK-45814] ArrowConverters.createEmptyArrowBatch を作成します。 メモリリークを避けるために close() を呼び出します。
- 【スパーク-46132】 RPC SSL の JKS キーのキー パスワードをサポートします。
- 【スパーク-46602】 ビュー/テーブルが存在しない場合に、ビュー作成で
allowExisting
を伝達します。 - 【スパーク-46173】 日付解析中に trimAll 呼び出しをスキップします。
- [スパーク-46355] XML: 読み取り完了時に InputStreamReader を閉じます。
- 【スパーク-46600】 SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- [SPARK-46261] ディクテーション/マップの順序を維持する
DataFrame.withColumnsRenamed
。 - 【スパーク-46056】 Parquet でベクトル化された読み取り NPE を byteArrayDecimalType のデフォルト値で修正しました。
- [SPARK-46260]
DataFrame.withColumnsRenamed
は辞書の順序を尊重する必要があります。 - 【スパーク-46250】 デフレークtest_parity_listener。
- 【スパーク-46370】 列のデフォルトを変更した後にテーブルからクエリを実行するときのバグを修正しました。
- [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- 【スパーク-46058】 privateKeyPassword に個別のフラグを追加します。
- Photonクエリによって返されるexplainプランの
-
2023年12月14日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題が修正されました。
- 【スパーク-45509】 Spark Connect の df 列参照動作を修正しました。
- [SPARK-45844] XML の大文字と小文字を区別しない実装を実装します。
- 【スパーク-46141】 spark.sql.legacy.ctePrecedencePolicy のデフォルトを CORRECTED に変更します。
- 【スパーク-46028】 入力列を受け入れる
Column.__getitem__
にします。 - [スパーク-46255] 複合型の -> 文字列変換をサポートします。
- [スパーク-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- [SPARK-45433] タイムスタンプが指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- [スパーク-45316] 新しいパラメーター
ignoreCorruptFiles
/ignoreMissingFiles
をHadoopRDD
とNewHadoopRDD
に追加します。 - [スパーク-45852] ロギング中の再帰エラーに適切に対処します。
- [SPARK-45920] 順序数によるグループはべき等であるべきです。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年11月29日
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - テーブルまたはストリーミングテーブルを使用して CSVデータを取り込む場合、大きなAuto LoaderCSV ファイルが分割可能になり、スキーマ推論とデータ処理の両方で並行して処理できるようになりました。
- [SPARK-45892] オプティマイザー計画の検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45620]APIs PythonUDFに関連する キャメルケースを使用するようになりました。
- [スパーク-44790] Python、Spark Connect、SQL の
to_xml
実装とバインディングが追加されました。 - [スパーク-45770]
Dataframe.drop
用のDataFrameDropColumns
による固定カラム分解能。 - [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - [SPARK-44784] SBTテストを密閉しました。
- オペレーティング システムのセキュリティ更新プログラム。
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
-
2023年11月10日
- [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - 【スパーク-45250】 動的割り当てがオフになっている場合の yarn クラスターのステージ レベルのタスク リソース プロファイルのサポートが追加されました。
- [スパーク-44753] PySpark SQL 用の XML DataFrame リーダーとライターを追加しました。
- [SPARK-45396]
PySpark.ml.connect
モジュールのドキュメントエントリを追加しました。 - [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [スパーク-45541] SSLFactory を追加しました。
- [スパーク-45577] 名前付き引数から折りたたまれた値を渡すように修正
UserDefinedPythonTableFunctionAnalyzeRunner
。 - [スパーク-45562] 'rowTag' を必須オプションにしました。
- [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - 【スパーク-43380】 Avro 読み取りの速度低下を修正しました。
- [SPARK-45430]
IGNORE NULLS
およびoffset > rowCount
時にFramelessOffsetWindowFunction
が失敗しなくなりました。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [スパーク-45386]
StorageLevel.NONE
が誤って 0 を返す問題を修正しました。 - [スパーク-44219] 最適化の書き換えのためのルールごとの検証チェックを追加しました。
- [スパーク-45543] 他のウィンドウ関数がランクのような関数と同じウィンドウフレームを持っていない場合に
InferWindowGroupLimit
が問題を引き起こす問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-45545]
-
2023年9月27日
- [SPARK-44823]
black
を23.9.1に更新し、誤ったチェックを修正しました。 - [スパーク-45339] PySpark は、再試行したエラーをログに記録するようになりました。
- 元に戻す [SPARK-42946] 変数置換の下にネストされた機密データを編集しました。
- [スパーク-44551] コメントを編集してOSSと同期しました。
- [スパーク-45360] Spark セッション ビルダーは、
SPARK_REMOTE
からの初期化をサポートしています。 - [スパーク-45279] すべての論理プランに
plan_id
アタッチされています。 - [スパーク-45425]
MsSqlServerDialect
のShortType
にTINYINT
をマッピングしました。 - 【スパーク-45419】
rocksdb
sst ファイル ID の再利用を避けるために、より大きなバージョンのファイル バージョン マップ エントリを削除しました。 - [スパーク-45488]
rowTag
要素の値のサポートが追加されました。 - 【スパーク-42205】
JsonProtocol
イベント ログのTask/Stage
開始イベントのAccumulables
のログ記録を削除しました。 - 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - [SPARK-45256] 初期容量よりも多くの値を書き込むと
DurationWriter
が失敗する。 - 【スパーク-43380】 パフォーマンスの低下を引き起こさずに
Avro
データ型変換の問題を修正しました。 - 【スパーク-45182】 シャッフルマップステージのロールバックのサポートが追加され、ステージ出力が不確定な場合にすべてのステージタスクを再試行できるようになりました。
- [SPARK-45399]
newOption
を使用した XML オプションを追加しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-44823]
Databricks Runtime 14.0
「Databricks Runtime 14.0 (EoS)」を参照してください。
-
2024年2月8日
- [スパーク-46396] タイムスタンプの推論では、例外をスローしないでください。
- [スパーク-46794] LogicalRDD 制約からサブクエリを削除します。
- 【スパーク-45182】 チェックサムによって決定された親の不確定ステージを再試行した後、古いステージからのタスクの完了を無視します。
- [SPARK-46933] クエリ実行時間メトリクスをJDBCRDDを使用するコネクタに追加します。
- [スパーク-45957] 実行不可能なコマンドの実行プランを生成しないでください。
- [スパーク-46861] DAGSchedulerのデッドロックを回避します。
- [スパーク-46930] Avro の Union 型フィールドのカスタム プレフィックスのサポートを追加します。
- [スパーク-46941] SizeBasedWindowFunction が含まれている場合、top-k 計算のウィンドウ グループ制限ノードを挿入できません。
- [スパーク-45582] 出力モードのストリーミング aggregation 内でコミットを呼び出した後、ストア インスタンスが使用されていないことを確認します。
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年1月31日
- 【スパーク-46541】 自己結合のあいまいな列参照を修正します。
- [SPARK-46676] プランの正規化でdropDuplicatesWithinWatermarkが失敗しないように修正しました。
- [スパーク-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- [SPARK-45498] 補足情報: 古いステージの試行からのタスクの完了を無視します。
- 元に戻す [SPARK-46769] タイムスタンプ関連のスキーマ推論を絞り込みます。
- [SPARK-46383]
TaskInfo.accumulables()
の寿命を短くすることで、ドライバー ヒープの使用量を削減します。 - [SPARK-46633] 長さがゼロのブロックを処理するようにAvroリーダーを修正しました。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [スパーク-46684] CoGroup.applyInPandas/Arrow が引数を正しく渡すように修正しました。
- [SPARK-46763] 重複する属性の ReplaceDeduplicateWithAggregate でのアサーションの失敗を修正します。
- 【スパーク-46610】 テーブルの作成は、オプションのキーの値がない場合に例外をスローする必要があります。
- オペレーティング システムのセキュリティ更新プログラム。
-
2024年1月17日
- Photonクエリによって返されるexplainプランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合にcausedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信する際のレイテンシーの増加を避けるため、このメンテナンスリリースには、JDK バグ JDK-8293562 を修正するための JDK 8 インストールのパッチが含まれています。
- [スパーク-46394] spark.catalog.listDatabases() を修正
spark.sql.legacy.keepCommandOutputSchema
true に設定されている場合に、特殊文字を含むスキーマで問題が発生します。 - 【スパーク-46250】 デフレークtest_parity_listener。
- [SPARK-45814] ArrowConverters.createEmptyArrowBatch を作成します。 メモリリークを避けるために close() を呼び出します。
- 【スパーク-46173】 日付解析中に trimAll 呼び出しをスキップします。
- [SPARK-46484]
resolveOperators
ヘルパー関数がプラン ID を保持するようにします。 - [SPARK-46466] ベクトル化された Parquet リーダーは、タイムスタンプ ntz のリベースを決して行わないでください。
- 【スパーク-46056】 Parquet でベクトル化された読み取り NPE を byteArrayDecimalType のデフォルト値で修正しました。
- 【スパーク-46058】 privateKeyPassword に個別のフラグを追加します。
- 【スパーク-46478】 文字列に oracle varchar(255) を使用するように SPARK-43049 を元に戻します。
- 【スパーク-46132】 RPC SSL の JKS キーのキー パスワードをサポートします。
- [スパーク-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しないでください。
- [SPARK-46261] ディクテーション/マップの順序を維持する
DataFrame.withColumnsRenamed
。 - 【スパーク-46370】 列のデフォルトを変更した後にテーブルからクエリを実行するときのバグを修正しました。
- [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- 【スパーク-46600】 SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- 【スパーク-46538】
ALSModel.transform
のあいまいな列参照の問題を修正します。 - [スパーク-46337]
PLAN_ID_TAG
を保持するCTESubstitution
させます。 - 【スパーク-46602】 ビュー/テーブルが存在しない場合に、ビュー作成で
allowExisting
を伝達します。 - [SPARK-46260]
DataFrame.withColumnsRenamed
は辞書の順序を尊重する必要があります。 - [SPARK-46145] テーブルまたはビューが見つからない場合、spark.catalog.listTables が例外をスローしない。
- Photonクエリによって返されるexplainプランの
-
2023年12月14日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題が修正されました。
- [スパーク-46255] 複合型の -> 文字列変換をサポートします。
- 【スパーク-46028】 入力列を受け入れる
Column.__getitem__
にします。 - [SPARK-45920] 順序数によるグループはべき等であるべきです。
- [SPARK-45433] タイムスタンプが指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- 【スパーク-45509】 Spark Connect の df 列参照動作を修正しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年11月29日
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - テーブルまたはストリーミングテーブルを使用して CSVデータを取り込む場合、大きなAuto LoaderCSV ファイルが分割可能になり、スキーマ推論とデータ処理の両方で並行して処理できるようになりました。
- Spark-snowflake コネクタが 2.12.0 にアップグレードされました。
- [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - [SPARK-45592]を元に戻します。
- [SPARK-45892] オプティマイザー計画の検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [スパーク-45592] AQE with
InMemoryTableScanExec
の正確性の問題を修正しました。 - [SPARK-45620]APIs PythonUDFに関連する キャメルケースを使用するようになりました。
- [SPARK-44784] SBTテストを密閉しました。
- [スパーク-45770]
Dataframe.drop
用のDataFrameDropColumns
による固定カラム分解能。 - [SPARK-45544] SSL サポートを に統合
TransportContext
. - 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - オペレーティング システムのセキュリティ更新プログラム。
- PyArrow RCE の脆弱性を修正するための新しいパッケージ
-
2023年11月10日
- Unity Catalog ストリーミング テーブルとマテリアライズドビューのチェンジデータフィード クエリーを使用して、エラー メッセージを表示します。
- [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [スパーク-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
IGNORE NULLS
およびoffset > rowCount
時にFramelessOffsetWindowFunction
が失敗しなくなりました。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [スパーク-44219] 最適化の書き換えのために、ルールごとの検証を追加しました。
- [スパーク-45543] 他のウィンドウ関数がランクのような関数と同じウィンドウフレームを持たない場合に
InferWindowGroupLimit
エラーが発生する問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年10月23日
- 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - [SPARK-45396]
PySpark.ml.connect
モジュールの doc エントリを追加し、ml.connect
の__all__
にEvaluator
を追加しました。 - [スパーク-45256] 初期容量よりも多くの値を書き込むときに
DurationWriter
が失敗する問題を修正しました。 - [スパーク-45279] すべての論理プランに
plan_id
アタッチされています。 - 【スパーク-45250】 動的割り当てがオフになっている場合の yarn クラスターのステージ レベルのタスク リソース プロファイルのサポートが追加されました。
- 【スパーク-45182】 シャッフルマップステージのロールバックのサポートが追加され、ステージ出力が不確定な場合にすべてのステージタスクを再試行できるようになりました。
- 【スパーク-45419】
rocksdb sst
ファイルを別のrocksdb
インスタンスで再利用しないようにするには、大きなバージョンのファイル バージョン マップ エントリを削除します。 - [スパーク-45386]
StorageLevel.NONE
が誤って 0 を返す問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- 【スパーク-45426】
-
2023年10月13日
- Snowflake-JDBC 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
array_insert
関数は、正のインデックスと負のインデックスに対して1から始まりますが、以前はネガティブインデックスに対して0から始まります。ここで、インデックス -1 の入力配列の末尾に新しい要素が挿入されます。 以前の動作に戻すには、spark.sql.legacy.negativeIndexInArrayInsert
をtrue
に設定します。- は、Databricks を使用したCSV スキーマ推論で が有効になっている場合に、破損したファイルを無視しなくなりました。Auto Loader
ignoreCorruptFiles
- 【スパーク-45227】
CoarseGrainedExecutorBackend
の微妙なスレッド セーフの問題を修正しました。 - [SPARK-44658]
ShuffleStatus.getMapStatus``Some(null)
ではなくNone
を返す必要があります。 - [SPARK-44910]
Encoders.bean
ジェネリック型引数を持つスーパークラスをサポートしない。 - [スパーク-45346] Parquet スキーマ推論では、スキーマをマージするときに大文字と小文字が区別されるフラグが尊重されます。
- [SPARK-42946]を元に戻します。
- 【スパーク-42205】 JSON プロトコルを更新して、タスクまたはステージ開始イベントでの Accumulables ログを削除しました。
- [スパーク-45360] Spark セッション ビルダーは、
SPARK_REMOTE
からの初期化をサポートしています。 - [スパーク-45316] 新しいパラメーター
ignoreCorruptFiles
/ignoreMissingFiles
をHadoopRDD
とNewHadoopRDD
に追加します。 - [SPARK-44909] トーチディストリビューターログストリーミングサーバーが使用できない場合は、実行をスキップします。
- [SPARK-45084]
StateOperatorProgress
正確なシャッフルパーティション番号を使用するようになりました。 - [SPARK-45371] Spark Connect Scala クライアントのシェーディングの問題を修正しました。
- 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して 1 つのバッチを実行するようにフォールバックします。 - 【スパーク-44840】 負のインデックスの場合は
array_insert()
1 を基準にします。 - [スパーク-44551] コメントを編集してOSSと同期しました。
- 【スパーク-45078】
ArrayInsert
関数は、要素の型が派生コンポーネントの型と等しくない場合に、明示的なキャストを行うようになりました。 - [スパーク-45339] PySpark で再試行エラーがログに記録されるようになりました。
- 【スパーク-45057】
keepReadLock
が false の場合、読み取りロックの取得を回避します。 - [SPARK-44908] クロスバリデーター
foldCol
パラメーター機能を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 13.1
「Databricks Runtime 13.1 (EoS)」を参照してください。
-
2023年11月29日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - 【スパーク-43802】 unhex 式と unbase64 式の codegen が失敗する問題を修正しました。
- [SPARK-43718]
USING
結合のキーの null 許容を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- JDBC または ODBC クライアントからの
-
2023年11月14日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- Unity Catalog ストリーミング テーブルとマテリアライズドビューのチェンジデータフィード クエリーを使用して、エラー メッセージを表示します。
- [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [SPARK-45430]
IGNORE NULLS
およびoffset > rowCount
時にFramelessOffsetWindowFunction
が失敗しなくなりました。 - [スパーク-45543] 他のウィンドウ関数がランクのような関数と同じウィンドウフレームを持っていない場合に
InferWindowGroupLimit
が問題を引き起こす問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年10月24日
- [スパーク-43799] PySpark
Protobuf
API に記述子バイナリオプションを追加しました。 - [SPARK-42946]を元に戻します。
- [スパーク-45346] Parquet スキーマ推論で、スキーマのマージ時に大文字と小文字を区別するフラグが尊重されるようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-43799] PySpark
-
2023年10月13日
- Snowflake-JDBC 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- による スキーマ推論中に が有効になっている場合に、破損したファイルを無視しなくなりました。
ignoreCorruptFiles
CSVAuto Loader - [SPARK-44658]
ShuffleStatus.getMapStatus
Some(null)
ではなくNone
を返します。 - 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して 1 つのバッチを実行するようにフォールバックします。 - 【スパーク-42205】 JSON プロトコルを更新して、タスクまたはステージ開始イベントでの Accumulables ログを削除しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年9月12日
- [スパーク-44718] メモリ モード設定のデフォルト
ColumnVector
OffHeapMemoryMode
設定値に一致させます。 - スパーク-44878 キャッシュ完了時の挿入例外を回避するために
RocksDB
書き込みマネージャーの厳密な制限をオフにしました。 - その他の修正。
- [スパーク-44718] メモリ モード設定のデフォルト
-
2023年8月30日
- [SPARK-44871] 'percentile_discの動作を修正しました。
- [SPARK-44714] クエリに関するLCA解決の制限を緩和します。
- [SPARK-44245]
PySpark.sql.dataframe sample()
ドキュメントテストが説明のみになりました。 - [スパーク-44818]
taskThread
が初期化される前に発行される保留中のタスク割り込みの競合を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年8月15日
- [スパーク-44485] 最適化された
TreeNode.generateTreeString
。 - [SPARK-44643] 行が空の場合の固定
Row.__repr__
。 - 【スパーク-44504】 メンテナンスタスクは、停止エラー時にロードされたプロバイダーをクリーンアップするようになりました。
- [SPARK-44479] 空の構造体型からの
protobuf
変換を修正しました。 - [SPARK-44464]最初の列の値として
Null
を持つ出力行のapplyInPandasWithStatePythonRunner
を修正しました。 - その他の修正。
- [スパーク-44485] 最適化された
-
2023年7月27日
- 他の外部ストレージの場所またはマネージドストレージロケーション
dbutils.fs.ls()
場所と競合するストレージの場所のパスに対して呼び出されたときにINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
が返される問題を修正しました。 - [SPARK-44199]
CacheManager
が不必要にfileIndex
を更新しなくなりました。 - [スパーク-44448]
DenseRankLimitIterator
とInferWindowGroupLimit
の間違った結果のバグを修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- 他の外部ストレージの場所またはマネージドストレージロケーション
-
2023年7月24日
- [SPARK-42323]を元に戻します。
- 【スパーク-41848】 タスクのオーバースケジュールの問題を修正しました
TaskResourceProfile
。 - [スパーク-44136]
StateManager
が のドライバーではなくエグゼキューターで具体化される問題を修正FlatMapGroupsWithStateExec
- [スパーク-44337]
Any.getDefaultInstance
に設定されたフィールドによって解析エラーが発生する問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月27日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗するようになりました。- Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
PubSubRecord
attributes フィールドは、Scala マップの文字列ではなく JSON として格納されるため、より簡単なシリアル化と逆シリアル化が可能になります。EXPLAIN EXTENDED
コマンドは、クエリの結果キャッシュの適格性を返すようになりました。- 増分更新のパフォーマンスを
SHALLOW CLONE
Iceberg と Parquet で改善します。 - [スパーク-43032] Python SQM のバグ修正。
- [SPARK-43404]同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップして、ID 不一致エラーを回避します。
- [スパーク-43340] イベントログに欠落しているスタックトレースフィールドを処理します。
- [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [スパーク-43541] 式と欠落している列の解決にすべての
Project
タグを伝播します。 - [SPARK-43300] Guavaキャッシュの
NonFateSharingCache
ラッパー。 - [スパーク-43378]
deserializeFromChunkedBuffer
のストリームオブジェクトを適切に閉じます。 - [スパーク-42852]
EquivalentExpressions
からのNamedLambdaVariable
関連の変更を元に戻します。 - [SPARK-43779]
ParseToDate
メインスレッドにEvalMode
をロードするようになりました。 - [スパーク-43413]
IN
サブクエリListQuery
nullabilityを修正しました。 - [SPARK-43889]
__dir__()
の列名のチェックを追加して、エラーが発生しやすい列名を除外します。 - 【スパーク-43043】
MapOutputTracker
.updateMapOutputのパフォーマンスを改善しました - [SPARK-43522] 配列のインデックスを持つ構造体列名の作成を修正しました。
- [SPARK-43457] OS、Python、Sparkバージョンを備えたAugumentユーザーエージェント。
- [スパーク-43286] CBCモード
aes_encrypt
更新され、ランダムなIVが生成されるようにしました。 - 【スパーク-42851】
supportedExpression()
でEquivalentExpressions.addExpr()
を守ります。 - [SPARK-43183]を元に戻します。
- オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
Databricks Runtime 12.2 LTS
「Databricks Runtime 12.2 LTS」を参照してください。
-
2023年11月29日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - 【スパーク-42205】
Stage
イベントとTask
開始イベントのログ記録の累積を削除しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - [SPARK-43718]
USING
結合のキーの null 許容を修正しました。 - [SPARK-45544] SSL サポートを に統合
TransportContext
. - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - オペレーティング システムのセキュリティ更新プログラム。
- JDBC または ODBC クライアントからの
-
2023年11月14日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [スパーク-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
IGNORE NULLS
およびoffset > rowCount
時にFramelessOffsetWindowFunction
が失敗しなくなりました。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年10月24日
- 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - その他の修正。
- 【スパーク-45426】
-
2023年10月13日
- Snowflake-JDBC 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [スパーク-42553] インターバルの後に少なくとも1つの時間単位を確保します。
- [スパーク-45346] Parquet スキーマ推論では、スキーマをマージするときに大文字と小文字を区別するフラグが尊重されます。
- 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して 1 つのバッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフルパーティション番号を使用するように
StateOperatorProgress
。
-
2023年9月12日
- [SPARK-44873] Hive クライアントでネストされた列を持つ
alter view
のサポートが追加されました。 - [スパーク-44718] メモリ モード設定のデフォルト
ColumnVector
OffHeapMemoryMode
設定値に一致させます。 - [スパーク-43799] PySpark
Protobuf
API に記述子バイナリオプションを追加しました。 - その他の修正。
- [SPARK-44873] Hive クライアントでネストされた列を持つ
-
2023年8月30日
- [スパーク-44485] 最適化された
TreeNode.generateTreeString
。 - [スパーク-44818]
taskThread
が初期化される前に発行される保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871] [11.3-13.0]
percentile_disc
の動作を修正しました。 - [SPARK-44714] クエリに関するLCA解決の制限を緩和しました。
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-44485] 最適化された
-
2023年8月15日
- 【スパーク-44504】 メンテナンス タスクは、停止エラー時にロードされたプロバイダーをクリーンアップします。
- [SPARK-44464]最初の列の値として
Null
を持つ出力行のapplyInPandasWithStatePythonRunner
を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年7月29日
- 他の外部ストレージの場所またはマネージドストレージロケーション
dbutils.fs.ls()
場所と競合するストレージの場所のパスに対して呼び出されたときにINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
が返される問題を修正しました。 - [SPARK-44199]
CacheManager
が不必要にfileIndex
を更新しなくなりました。 - オペレーティング システムのセキュリティ更新プログラム。
- 他の外部ストレージの場所またはマネージドストレージロケーション
-
2023年7月24日
- [スパーク-44337]
Any.getDefaultInstance
に設定されたフィールドによって解析エラーが発生する問題を修正しました。 - [スパーク-44136]
StateManager
が のドライバーではなくエグゼキューターで具体化される問題を修正FlatMapGroupsWithStateExec
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-44337]
-
2023年6月23日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 - Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [SPARK-43779]
ParseToDate
メインスレッドにEvalMode
をロードするようになりました。 - [SPARK-43156][スパーク-43098]
decorrelateInnerQuery
をオフにした拡張スカラー副照会カウント・エラー・テスト。 - オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。- 増分更新のパフォーマンスを
SHALLOW CLONE
Iceberg と Parquet で改善します。 - Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-43404] 同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップして、ID 不一致エラーを回避します。
- [スパーク-43413] [11.3-13.0]
IN
サブクエリListQuery
null 値の許容性を修正しました。 - [SPARK-43522] 配列のインデックスを持つ構造体列名の作成を修正しました。
- [スパーク-43541] 式と欠落している列の解決にすべての
Project
タグを伝播します。 - [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [スパーク-43123] 内部フィールドのメタデータがカタログにリークしなくなりました。
- [スパーク-43340] イベントログに欠落しているスタックトレースフィールドを修正しました。
- [SPARK-42444] 重複した列を正しく処理するようになった
DataFrame.drop
- [SPARK-42937]
PlanSubqueries``InSubqueryExec#shouldBroadcast
をtrueに設定するようになりました。 - [スパーク-43286] CBCモード
aes_encrypt
更新され、ランダムなIVが生成されるようにしました。 - [スパーク-43378]
deserializeFromChunkedBuffer
のストリームオブジェクトを適切に閉じます。
-
2023年5月17日
-
Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
-
Avro ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 -
Auto Loader では、次の処理が行われます。
-
Integer
、Short
、Byte
のいずれかのデータ型が指定されているが、Avro ファイルで他の 2 つのタイプのいずれかが提案されている場合は、正しく読み取られ、これらのタイプがレスキューされなくなりました。
-
- 間隔タイプを日付またはタイムスタンプタイプとして読み取らないようにして、日付が破損しないようにします。
-
- 精度の低い
Decimal
型の読み取りを防止します。
- 精度の低い
-
[SPARK-43172] Spark Connect クライアントからホストとトークンを公開します。
-
[SPARK-43293] 通常の列で
__qualified_access_only
が無視される。 -
[スパーク-43098] スカラーサブクエリが句でグループ化されている場合のバグ
COUNT
正確性を修正しました。 -
【スパーク-43085】 マルチパート
DEFAULT
テーブル名の列の割り当てのサポート。 -
[SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 -
【スパーク-43192】 ユーザーエージェントの文字セット検証を削除しました。
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2023年4月25日
- Parquet ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 - Auto Loader は、
Integer
、Short
、Byte
の各データ型のいずれかが指定されている場合、これらのデータ型を正しく読み取り、レスキューしなくなりました。 Parquet ファイルでは、他の 2 つのタイプのいずれかが提案されています。 救出されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても保存されます。 - 【スパーク-43009】
Any
定数を持つパラメータ化されたsql()
- [SPARK-42406] フィールドをドロップして Protobuf 再帰フィールドを終了
- 【スパーク-43038】 CBCモードを
aes_encrypt()
でサポート/aes_decrypt()
- [スパーク-42971]ワーカーがイベントを処理するときに
appDirs
がnullの場合WorkDirCleanup
印刷workdir
に変更 - 【スパーク-43018】 タイムスタンプリテラルを含む INSERT コマンドのバグを修正
- オペレーティング システムのセキュリティ更新プログラム。
- Parquet ファイルが
-
2023年4月11日
SYNC
コマンドで従来のデータソース形式をサポートします。- リポジトリの外部にあるノートブックの %autoreload 動作の問題を修正します。
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると スキーマの進化が無限の失敗ループに入る可能性がある問題を修正しました。JSON
- [スパーク-42928]
resolvePersistentFunction
を同期させます。 - [スパーク-42936] 句を子アグリゲートで直接解決できる場合の LCan の問題を修正します。
- [スパーク-42967] ステージがキャンセルされた後にタスクが開始されるタイミング
SparkListenerTaskStart.stageAttemptId
を修正します。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月29日
-
Databricks SQL では、 Delta Lake テーブルの列のデフォルト値をテーブル作成時または作成後に指定できるようになりました。 後続の
INSERT
、UPDATE
、DELETE
、およびMERGE
コマンドは、明示的なDEFAULT
キーワードを使用して任意の列のデフォルト値を参照できます。 さらに、INSERT
割り当てにターゲットテーブルよりも少ない列の明示的なリストがある場合、対応する列のデフォルト値が残りの列に置き換えられます (デフォルトが指定されていない場合は NULL)。例えば:
SQLCREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
INSERT INTO t VALUES (0, DEFAULT);
INSERT INTO t VALUES (1, DEFAULT);
SELECT first, second FROM t;
\> 0, 2023-03-28
1, 2023-03-28z -
Auto Loader は、
Trigger.AvailableNow
ストリームに対して少なくとも 1 つの同期 RocksDB ログのクリーンアップを開始して、高速実行の Auto Loader ストリームに対してチェックポイントを定期的にクリーンアップできることを確認します。 これにより、一部のストリームがシャットダウンするまでに時間がかかる場合がありますが、ストレージ コストを節約し、将来の実行で Auto Loader エクスペリエンスを向上させることができます。 -
Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用してテーブル機能にサポートを追加できるようになりました。 -
[SPARK-42794] structureストリーミングで RocksDB 状態ストアを取得するためのlockAcquireTimeoutMsを2分に増やします
-
【スパーク-42521】 ターゲット・テーブルよりも少ない列のユーザー指定リストを持つ INSERT に NULL を追加します
-
[SPARK-42702][スパーク-42623] サブクエリと CTE でのパラメータ化クエリのサポート
-
[スパーク-42668] HDFSStateStoreProvider の停止で圧縮ストリームを閉じようとしているときに例外をキャッチします
-
【スパーク-42403】 JsonProtocolはnull JSON 文字列を処理する必要があります
-
-
2023年3月8日
- 「構成の初期化に失敗しました」というエラーメッセージが改善され、顧客により詳しいコンテキストが提供されるようになりました。
- table プロパティを使用して Delta テーブルに機能を追加するための用語が変更されました。 推奨される構文は、
'delta.feature.featureName'='enabled'
ではなく'delta.feature.featureName'='supported'
になりました。下位互換性のために、'delta.feature.featureName'='enabled'
の使用は引き続き機能し、引き続き機能します。 - このリリース以降、テーブルを追加のテーブル プロパティ
delta.ignoreProtocolDefaults
で作成/置換して、プロトコル関連の Spark 設定 (デフォルト リーダーとライターのバージョン、および デフォルトでサポートされているテーブル機能を含む) を無視することができます。 - 【スパーク-42070】 Mask 関数の引数のデフォルト値を -1 から NULL に変更します
- [SPARK-41793] 有効桁数の range 句で定義されたウィンドウ フレームの結果が正しくありません
- [SPARK-42484] UnsafeRowUtils のエラーメッセージを改善しました
- 【スパーク-42516】 ビューの作成時に常にセッションのタイムゾーン設定をキャプチャする
- [スパーク-42635] TimestampAdd 式を修正します。
- [スパーク-42622] 値の置換をオフにしました
- [スパーク-42534] DB2Dialect の Limit 節の修正
- [スパーク-42121] 組み込みのテーブル値関数 posexplode、posexplode_outer、json_tuple、stack を追加
- 【スパーク-42045】 ANSI SQLモード:Round/Broundは、小さい/小さい/有効な整数のオーバーフローでエラーを返す必要があります
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 11.3 LTS
「Databricks Runtime 11.3 LTS」を参照してください。
-
2023年11月29日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアが誤ってワイルドカードとして解釈される問題を修正しました。 - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - [SPARK-45544] SSL サポートを に統合
TransportContext
. - [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - [SPARK-43718]
USING
結合のキーの null 許容を修正しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティ更新プログラム。
- JDBC または ODBC クライアントからの
-
2023年11月14日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- 【スパーク-42205】 ステージイベントとタスク開始イベントのログ記録の累積を削除しました。
- [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - [SPARK-33861]を元に戻します。
- [スパーク-45541]
SSLFactory
を追加しました。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [SPARK-45430]
IGNORE NULLS
およびoffset > rowCount
時にFramelessOffsetWindowFunction
が失敗しなくなりました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年10月24日
- 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - その他の修正。
- 【スパーク-45426】
-
2023年10月13日
- Snowflake-JDBC 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して 1 つのバッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフルパーティション番号を使用するように
StateOperatorProgress
。 - [スパーク-45346] Parquet スキーマ推論で、スキーマのマージ時に大文字と小文字を区別するフラグが尊重されるようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年9月10日
- その他の修正。
-
2023年8月30日
- [スパーク-44818]
taskThread
が初期化される前に発行される保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871] [11.3-13.0]
percentile_disc
の動作を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-44818]
-
2023年8月15日
- [スパーク-44485] 最適化された
TreeNode.generateTreeString
。 - 【スパーク-44504】 メンテナンス タスクは、停止エラー時にロードされたプロバイダーをクリーンアップします。
- [SPARK-44464]最初の列の値として
Null
を持つ出力行のapplyInPandasWithStatePythonRunner
を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-44485] 最適化された
-
2023年7月27日
- 他の外部ストレージの場所またはマネージドストレージロケーション
dbutils.fs.ls()
場所と競合するストレージの場所のパスに対して呼び出されたときにINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
が返される問題を修正しました。 - [SPARK-44199]
CacheManager
が不必要にfileIndex
を更新しなくなりました。 - オペレーティング システムのセキュリティ更新プログラム。
- 他の外部ストレージの場所またはマネージドストレージロケーション
-
2023年7月24日
- [スパーク-44136] StateManagerがFlatMapGroupsWithStateExecのドライバーではなくエグゼキューターで具体化される可能性がある問題を修正しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月23日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 - Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [SPARK-43779]
ParseToDate
メインスレッドにEvalMode
をロードするようになりました。 - 【スパーク-40862】 RewriteCorrelatedScalarSubquery での非集計サブクエリのサポート
- [SPARK-43156][スパーク-43098]
decorrelateInnerQuery
をオフにした拡張スカラー サブクエリ カウントのバグ テスト。 - [スパーク-43098] スカラー サブクエリにグループ by 句がある場合の COUNT の正確性のバグを修正
- オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。- 増分更新のパフォーマンスを
SHALLOW CLONE
Iceberg と Parquet で改善します。 - Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-43404]同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップして、ID 不一致エラーを回避します。
- [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [スパーク-43413] [11.3-13.0]
IN
サブクエリListQuery
null 値の許容性を修正しました。 - [スパーク-43340] イベントログに欠落しているスタックトレースフィールドを修正しました。
Databricks Runtime 10.4 LTS
「Databricks Runtime 10.4 LTS」を参照してください。
-
2023年11月29日
- [SPARK-45544] SSL サポートを に統合
TransportContext
. - [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - [SPARK-43718]
USING
結合のキーの null 許容を修正しました。 - 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - 【スパーク-42205】 ステージイベントとタスク開始イベントのログ記録の累積を削除しました。
- [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-45544] SSL サポートを に統合
-
2023年11月14日
- [スパーク-45541]
SSLFactory
を追加しました。 - [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [SPARK-33861]を元に戻します。
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-45541]
-
2023年10月24日
- 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - オペレーティング システムのセキュリティ更新プログラム。
- 【スパーク-45426】
-
2023年10月13日
- [SPARK-45084] 正確で適切なシャッフルパーティション番号を使用するように
StateOperatorProgress
。 - 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して 1 つのバッチを実行するようにフォールバックします。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-45084] 正確で適切なシャッフルパーティション番号を使用するように
-
2023年9月10日
- その他の修正。
-
2023年8月30日
- [スパーク-44818]
taskThread
が初期化される前に発行される保留中のタスク割り込みの競合を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-44818]
-
2023年8月15日
- 【スパーク-44504】 メンテナンス タスクは、停止エラー時にロードされたプロバイダーをクリーンアップします。
- [SPARK-43973] 構造化ストリーミング UI が、失敗したクエリを正しく表示するようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月23日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [スパーク-43098] スカラー サブクエリにグループ by 句がある場合の COUNT の正確性のバグを修正
- 【スパーク-40862】 RewriteCorrelatedScalarSubquery での非集計サブクエリのサポート
- [SPARK-43156][スパーク-43098]
decorrelateInnerQuery
をオフにした拡張スカラー副照会カウント・テスト。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。- JSON レスキューされたデータ解析の問題を修正し、
UnknownFieldException
を防ぎます。 - Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-43404] 同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップして、ID 不一致エラーを回避します。
- [スパーク-43413]
IN
サブクエリListQuery
null 値の許容を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年5月17日
- Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
- 【スパーク-41520】 木のパターン
AND_OR
分割して、AND
とOR
を分離します。 - [SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月25日
- [スパーク-42928]
resolvePersistentFunction
を同期させます。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-42928]
-
2023年4月11日
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると スキーマの進化が無限の失敗ループに入る可能性がある問題を修正しました。JSON
- [SPARK-42937]
PlanSubqueries``InSubqueryExec#shouldBroadcast
をtrueに設定するようになりました。 - [スパーク-42967] ステージがキャンセルされた後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
-
2023年3月29日
- [スパーク-42668] HDFSStateStoreProvider の停止で圧縮ストリームを閉じようとしているときに例外をキャッチします
- [スパーク-42635] 修正します...
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月14日
- [スパーク-41162] 集約を使用した自己結合のアンチ結合と半結合を修正します
- [スパーク-33206] 小さなインデックス ファイルのシャッフル インデックス キャッシュの重み計算を修正
- [SPARK-42484]
UnsafeRowUtils
エラーメッセージを改善しました - その他の修正。
-
2023年2月28日
- yyyy-MM-dd date_formatの生成列をサポートします。 この変更により、yyyy-MM-dd のパーティションプルーニングが生成列のdate_formatとしてサポートされます。
- ユーザーは、Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに一覧表示されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- yyyy-MM-dd date_formatの生成列をサポートします。 この変更により、yyyy-MM-dd のパーティションプルーニングが生成列のdate_formatとしてサポートされます。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月16日
- 【スパーク-30220】 フィルター・ノードの外部での存在/入力サブクエリーの使用を有効にする
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月31日
- JDBC テーブルのテーブル・タイプがデフォルトで EXTERNAL になりました。
-
2023年1月18日
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合、よりわかりやすいエラー メッセージを返します。 このような場合は、次のメッセージが返されます:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [スパーク-38277]RocksDB状態ストアのコミット後に書き込みバッチをクリアする
- 【スパーク-41199】 DSv1 ストリーミング ソース と DSv2 ストリーミング ソース が併用されている場合のメトリクスの問題を修正します
- 【スパーク-41198】 CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリクスを修正
- [スパーク-41339] RocksDB の書き込みバッチを閉じて再作成するだけでなく、単にクリアする代わりに
- [SPARK-41732] ルール SessionWindowing にツリー パターン ベースのプルーニングを適用する
- オペレーティング システムのセキュリティ更新プログラム。
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合、よりわかりやすいエラー メッセージを返します。 このような場合は、次のメッセージが返されます:
-
2022年11月29日
-
ユーザーは、Redshift コネクタを使用してデータを書き込む際の先頭と末尾の空白の動作を構成できます。 ホワイトスペースの処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から先頭の空白が削除されます。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。csvignoretrailingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から末尾の空白が削除されます。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。
-
すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合、JSON に入れ子になったオブジェクトが含まれている場合の Auto Loader でのJSON解析の問題を修正しました。 -
オペレーティング システムのセキュリティ更新プログラム。
-
-
2022年11月15日
- Apache commons-text を 1.10.0 に更新しました。
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 フラグは、元の動作を保持するためにデフォルトでオフになっています。 - 【スパーク-40292】
arrays_zip
関数の列名を修正 (入れ子になった構造体から配列が参照されている場合) - オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月1日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード がオフになっている場合、MERGE
実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 allowOverwrites
が有効になっているときにファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました- [SPARK-40697] 外部データファイルをカバーするために読み取り側の文字パディングを追加する
- [SPARK-40596] ExecutorDecommissionInfo にメッセージを入力します
- オペレーティング システムのセキュリティ更新プログラム。
- Delta テーブルに
-
2022年10月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- [スパーク-40468]
_corrupt_record
が選択されている場合のCSVでの列のプルーニングを修正します。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-40468]
-
2022年9月22日
- ユーザーは spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
)Auto Loader ADLSGen2 の の組み込みリストを再度有効にします。組み込みリストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。 - 【スパーク-40315】 ArrayBasedMapData のリテラルに hashCode() を追加
- 【スパーク-40213】 Latin-1 文字の ASCII 値変換をサポート
- 【スパーク-40380】 InvokeLike の定数フォールディングを修正して、プランに埋め込まれたシリアル化不可能なリテラルを回避します
- 【スパーク-38404】 ネストされた CTE が外部 CTE を参照する場合の CTE 解像度の向上
- 【スパーク-40089】 一部の Decimal 型の並べ替えを修正
- 【スパーク-39887】 RemoveRedundantAliases は、投影ノードの出力を一意にするエイリアスを保持する必要があります
- ユーザーは spark.conf.set(
-
2022年9月6日
- 【スパーク-40235】 エグゼキューター.updateDependencies()で同期する代わりに割り込み可能なロックを使用する
- 【スパーク-40218】 GROUPING SETS はグループ化列を保持する必要があります
- [スパーク-39976] ArrayIntersect は、左の式で null を正しく処理する必要があります
- 【スパーク-40053】Pythonランタイム環境を必要とする動的キャンセルケースに
assume
を追加します - [スパーク-35542] 修正: パラメーター splitsArray、inputCols、outputCols を使用して複数の列に対して作成された Bucketizer は、保存後に読み込めません
- 【スパーク-40079】 空の入力ケースに対する Imputer inputCols 検証を追加
-
2022年8月24日
- 【スパーク-39983】 シリアル化されていないブロードキャスト関係をドライバーにキャッシュしない
- 【スパーク-39775】Avroスキーマの解析時にデフォルトの値の検証を無効にする
- [スパーク-39962] グループ属性が空の場合の投影の適用
- [SPARK-37643] charVarcharAsString が true の場合、char データ型の述語クエリで rpadding ルールをスキップすべき
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月9日
- 【スパーク-39847】 呼び出し元のスレッドが中断された場合のRocksDBLoader.loadLibrary()の競合状態を修正
- [スパーク-39731] CORRECTED タイムパーサーポリシーを使用して "yyyyMMdd" 形式の日付を解析する際の CSV および JSON データソースの問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- 【スパーク-39625】 データセット.as(StructType)を追加
- [スパーク-39689]CSV データソースの 2-chars
lineSep
をサポート - [スパーク-39104] InMemoryRelation#isCachedColumnBuffersLoaded はスレッドセーフであるべきです
- 【スパーク-39570】 インライン テーブルでは、エイリアスを持つ式を許可する必要があります
- [スパーク-39702] 共有 byteRawChannel を使用して TransportCipher$EncryptedMessage のメモリオーバーヘッドを削減します
- [SPARK-39575] AvroDeserializerでByteBuffer#getの後にByteBuffer#rewindを追加
- [スパーク-39476] Long から Float/ Double または Integer から Float にキャストするときに、Unwrap キャスト最適化を無効にします。
- [スパーク-38868] 外部結合の最適化時にフィルター述語から例外を伝達しない
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月20日
- Delta MERGE 操作の結果に一貫性を持たせるには、ソースが非決定論的である場合にしてください。
- [スパーク-39355] 1 つの列で引用符で囲まれた UnresolvedAttribute の構成
- 【スパーク-39548】 CreateView コマンドにウィンドウ句のクエリがあると、間違ったウィンドウ定義が見つからない問題が押されます
- 【スパーク-39419】 コンパレータがnullを返すときに例外をスローするようにArraySortを修正
- の Auto Loaderでのディレクトリ リストへの組み込みクラウド の使用をオフにしました。APIsAzure
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- [スパーク-39376] NATURAL / USING JOINからのサブクエリエイリアスのスター展開で重複する列を非表示にします
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年6月15日
- [スパーク-39283] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正
- [SPARK-39285] Spark はファイルの読み取り時にフィールド名をチェックしない
- [スパーク-34096] オフセット ウィンドウに対する null を無視するnth_valueのパフォーマンスを改善
- 【スパーク-36718】 CollapseProject の
isExtractOnly
チェックを修正します
-
2022年6月2日
- 【スパーク-39093】 年-月間隔または日-時間間隔を整数で除算するときの codegen コンパイル エラーを回避します
- [スパーク-38990] date_trunc/trunc 形式をバインド参照として評価する場合は、NullPointerException を回避します
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- Auto Loaderでの潜在的な組み込みメモリ リークを修正します。
- [スパーク-38918] ネストされたカラムの刈り込みでは、現在のリレーションに属さない属性を除外する必要があります
- [スパーク-37593] デフォルトのページサイズを LONG_ARRAY_OFFSET 縮小します (G1GC と ON_HEAP を使用している場合)
- [スパーク-39084] タスクの完了時にイテレータを停止するために TaskContext を使用して df.rdd.isEmpty() を修正します
- [スパーク-32268] injectBloomFilter に ColumnPruning を追加します。
- [スパーク-38974] リスト関数で特定のデータベース名で登録された関数をフィルタリングする
- [スパーク-38931] RocksDBFileManager のルート dfs ディレクトリを作成し、1 番目のチェックポイントに不明な数のキーを使用します
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月19日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
- ノートブック スコープのライブラリがバッチ ストリーミング ジョブで機能しない問題を修正しました。
- [スパーク-38616] Catalyst TreeNode での SQL クエリ テキストの追跡
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月6日
-
このリリースでは、次の Spark SQL 関数を使用できるようになりました。
timestampadd()
anddateadd()
: 指定した単位での期間をタイムスタンプ式に追加します。timestampdiff()
datediff()
: 指定した単位で 2 つのタイムスタンプ式間の時間差を計算します。
-
Parquet-MR が 1.12.2 にアップグレードされました
-
Parquet ファイル内の包括的なスキーマのサポートの改善
-
[スパーク-38631] Java ベースの実装を使用して Utils.unpack で tar を解除します。
-
[スパーク-38509]【スパーク-38481】 チェリーピック3つの
timestmapadd/diff
変更。 -
[スパーク-38523] CSV から破損したレコード列を参照する問題を修正
-
[スパーク-38237]
ClusteredDistribution
が完全なクラスタリング キーを要求できるようにする -
[スパーク-38437] データソースからのdatetimeの寛大なシリアル化
-
【スパーク-38180】 相関等価述語で安全なアップキャスト式を許可する
-
【スパーク-38155】 サポートされていない述部を持つ横方向のサブクエリでの個別の集計を許可しない
-
オペレーティング システムのセキュリティ更新プログラム。
-
Databricks Runtime 9.1 LTS
「Databricks Runtime 9.1 LTS」を参照してください。
-
2023年11月29日
- [スパーク-45859]
ml.functions
のUDFオブジェクトを遅延させました。 - [SPARK-45544] SSL サポートを に統合
TransportContext
. - 【スパーク-45730】
ReloadingX509TrustManagerSuite
の時間制約の改善 . - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-45859]
-
2023年11月14日
- [SPARK-45545]
SparkTransportConf
作成時にSSLOptions
を継承する。 - [スパーク-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [スパーク-45584]
TakeOrderedAndProjectExec
によるサブクエリの実行失敗を修正しました。 - [スパーク-45541]
SSLFactory
を追加しました。 - 【スパーク-42205】 ステージイベントとタスク開始イベントのログ記録の累積を削除しました。
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-45545]
-
2023年10月24日
- 【スパーク-45426】
ReloadingX509TrustManager
のサポートが追加されました。 - オペレーティング システムのセキュリティ更新プログラム。
- 【スパーク-45426】
-
2023年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年9月10日
- その他の修正。
-
2023年8月30日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年8月15日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月23日
- Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- [スパーク-43098] スカラー サブクエリにグループ by 句がある場合の COUNT の正確性のバグを修正
- [SPARK-43156][スパーク-43098] スカラー サブクエリ数のバグ テストを拡張し、
decorrelateInnerQuery
をオフにしました。 - 【スパーク-40862】 RewriteCorrelatedScalarSubquery での非集計サブクエリのサポート
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。- JSON レスキューされたデータ解析の問題を修正し、
UnknownFieldException
を防ぎます。 - Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- 【スパーク-37520】
startswith()
関数とendswith()
文字列関数を追加する - [スパーク-43413]
IN
サブクエリListQuery
null 値の許容を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年5月17日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月25日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月11日
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると スキーマの進化が無限の失敗ループに入る可能性がある問題を修正しました。JSON
- [スパーク-42967] ステージがキャンセルされた後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
-
2023年3月29日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月14日
- [SPARK-42484]
UnsafeRowUtils
のエラーメッセージを改善しました。 - その他の修正。
- [SPARK-42484]
-
2023年2月28日
- ユーザーは、Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに一覧表示されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月16日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月31日
- JDBC テーブルのテーブル・タイプがデフォルトで EXTERNAL になりました。
-
2023年1月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月29日
- すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合、JSON に入れ子になったオブジェクトが含まれている場合の Auto Loader でのJSON解析の問題を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- すべての列が文字列として残され (
-
2022年11月15日
- Apache commons-text を 1.10.0 に更新しました。
- オペレーティング システムのセキュリティ更新プログラム。
- その他の修正。
-
2022年11月1日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード がオフになっている場合、MERGE
実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 allowOverwrites
が有効になっているときにファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました- [SPARK-40596] ExecutorDecommissionInfo にメッセージを入力します
- オペレーティング システムのセキュリティ更新プログラム。
- Delta テーブルに
-
2022年10月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- その他の修正。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", を設定できる) "true") を使用して、Auto Loader ADLSGen2 の S の組み込みリストを再度有効にします。組み込みリストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。
- 【スパーク-40315】 ArrayBasedMapData のリテラルに hashCode() を追加
- 【スパーク-40089】 一部の Decimal 型の並べ替えを修正
- 【スパーク-39887】 RemoveRedundantAliases は、投影ノードの出力を一意にするエイリアスを保持する必要があります
-
2022年9月6日
- 【スパーク-40235】 エグゼキューター.updateDependencies()で同期する代わりに割り込み可能なロックを使用する
- [スパーク-35542] 修正: パラメーター splitsArray、inputCols、outputCols を使用して複数の列に対して作成された Bucketizer は、保存後に読み込めません
- 【スパーク-40079】 空の入力ケースに対する Imputer inputCols 検証を追加
-
2022年8月24日
- [スパーク-39666] UnsafeProjection.create を使用して ExpressionEncoder の
spark.sql.codegen.factoryMode
を尊重する - [スパーク-39962] グループ属性が空の場合の投影の適用
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-39666] UnsafeProjection.create を使用して ExpressionEncoder の
-
2022年8月9日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- Delta MERGE 操作の結果に一貫性を持たせるには、ソースが非決定論的である場合にしてください。
- [スパーク-39689] CSV データソースでの 2 文字
lineSep
のサポート - [スパーク-39575]
AvroDeserializer
年にByteBuffer#get
後のByteBuffer#rewind
を追加しました。 - [SPARK-37392] Catalyst オプティマイザのパフォーマンスエラーを修正しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月13日
- [SPARK-39419] コンパレータがnullを返すと、
ArraySort
が例外をスローする。 - の Auto Loaderでのディレクトリ リストへの組み込みクラウド の使用をオフにしました。APIsAzure
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-39419] コンパレータがnullを返すと、
-
2022年7月5日
- オペレーティング システムのセキュリティ更新プログラム。
- その他の修正。
-
2022年6月15日
- [スパーク-39283]
TaskMemoryManager
とUnsafeExternalSorter.SpillableIterator
の間のデッドロックを修正します。
- [スパーク-39283]
-
2022年6月2日
- [スパーク-34554]
copy()
メソッドをColumnarMap
で実装します。 - オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-34554]
-
2022年5月18日
- Auto Loaderでの潜在的な組み込みメモリリークを修正しました。
- AWS SDK バージョンを 1.11.655 から 1.11.678 にアップグレードします。
- [スパーク-38918] ネストされたカラムの刈り込みでは、現在のリレーションに属さない属性を除外する必要があります
- [スパーク-39084]
TaskContext
を使用してタスクの完了時にイテレータを停止することでdf.rdd.isEmpty()
を修正します - オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月19日
- オペレーティング システムのセキュリティ更新プログラム。
- その他の修正。
-
2022年4月6日
- [スパーク-38631] Java ベースの実装を使用して Utils.unpack で tar を解除します。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年3月22日
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、Active Directory
/databricks/driver
は . - [スパーク-38437] データソースからのdatetimeの寛大なシリアル化
- 【スパーク-38180】 相関等価述語で安全なアップキャスト式を許可する
- 【スパーク-38155】 サポートされていない述部を持つ横方向のサブクエリでの個別の集計を許可しない
- 【スパーク-27442】 Parquet でデータを読み書きする際のチェック フィールドを削除しました。
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、Active Directory
-
2022年3月14日
- [スパーク-38236] create/alter テーブルで指定された絶対ファイル・パスは、相対パスとして扱われます
- [スパーク-34069] ローカル プロパティ [
SPARK_JOB_INTERRUPT_ON_CANCEL
] が true に設定されている場合は、タスク スレッドを中断します。
-
2022年2月23日
- [スパーク-37859] JDBC と Spark 3.1 で作成された SQL テーブルは、Spark 3.2 では読み取れません。
-
2022年2月8日
- 【スパーク-27442】 Parquet でデータを読み書きする際のチェック フィールドを削除しました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- Deltaテーブル上の並列トランザクションが、特定のまれな条件下でシリアル化できない順序でコミットされる可能性がある問題を修正しました。
- ANSI SQL ダイアレクトが有効になっているときに
OPTIMIZE
コマンドが失敗する可能性がある問題を修正しました。
-
2022年1月19日
- マイナーな修正とセキュリティの強化。
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年11月4日
- 構造化ストリーミングストリームが
ArrayIndexOutOfBoundsException
で失敗する可能性がある問題を修正しました。 java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。- Delta Sharing の Apache Spark コネクタが 0.2.0 にアップグレードされました。
- 構造化ストリーミングストリームが
-
2021年10月20日
- BigQuery コネクタを 0.18.1 から 0.22.2 にアップグレードしました。 これにより、BigNumeric 型のサポートが追加されます。
Databricks Runtime 13.0 (EoS)
「Databricks Runtime 13.0 (EoS)」を参照してください。
-
2023年10月13日
- Snowflake-JDBC 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-42553][SQL] 間隔の後に少なくとも 1 つの時間単位を確保します。
- 【スパーク-45178】 ラッパーを使用するのではなく、サポートされていないソースを持つ
Trigger.AvailableNow
に対して単一のバッチを実行するようにフォールバックします。 - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
Some(null)
ではなくNone
を返します。 - [SPARK-42205][CORE]
JsonProtocol
タスク/ステージ開始イベントのアキュムラブルのログを削除。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年9月12日
- [SPARK-44485][SQL]
TreeNode.generateTreeString
を最適化します。 - [SPARK-44718][SQL] メモリモード設定のデフォルト
ColumnVector``OffHeapMemoryMode
設定値に一致させます。 - その他のバグ修正。
- [SPARK-44485][SQL]
-
2023年8月30日
- [SPARK-44818][バックポート]
taskThread
が初期化される前に発行される保留中のタスク割り込みの競合を修正しました。 - [SPARK-44714] クエリに関するLCA解決の制限を緩和します。
- [SPARK-44245][Python]
pyspark.sql.dataframe sample()
doctestsは説明のみになりました。 - [SPARK-44871] [11.3-13.0] [SQL]
percentile_disc
の動作を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-44818][バックポート]
-
2023年8月15日
- [SPARK-44643][SQL][Python] 行が空の場合の
Row.__repr__
を修正します。 - [SPARK-44504][バックポート]メンテナンスタスクは、停止エラー時にロードされたプロバイダーをクリーンアップします。
- [SPARK-44479][CONNECT][Python] 空の構造体タイプからの
protobuf
変換を修正しました。 - [SPARK-44464][SS] 最初の列の値が
Null
を持つ行の出力applyInPandasWithStatePythonRunner
を修正しました。 - その他のバグ修正。
- [SPARK-44643][SQL][Python] 行が空の場合の
-
2023年7月29日
- ストレージの場所のパスに対して呼び出されたときに
dbutils.fs.ls()``INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返すバグが、他の外部または管理されたストレージの場所と競合するバグを修正しました。 - [SPARK-44199]
CacheManager
が不必要にfileIndex
を更新しなくなりました。 - オペレーティング システムのセキュリティ更新プログラム。
- ストレージの場所のパスに対して呼び出されたときに
-
2023年7月24日
- [SPARK-44337][PROTOBUF]
Any.getDefaultInstance
に設定されたフィールドが解析エラーを引き起こす問題を修正。 - [SPARK-44136] [SS]
StateManager
がFlatMapGroupsWithStateExec
のドライバーではなくエグゼキューターでマテリアライズされる問題を修正。 - 元に戻す [SPARK-42323][SQL]
_LEGACY_ERROR_TEMP_2332
に名前を割り当てます。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-44337][PROTOBUF]
-
2023年6月23日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 - Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [SPARK-43156][スパーク-43098][SQL]decorrelateInnerQuery を無効にしたスカラー サブクエリ数の拡張バグ テスト
- [SPARK-43779][SQL]
ParseToDate
メインスレッドでEvalMode
をロードするようになりました。 - [SPARK-42937][SQL]
PlanSubqueries``InSubqueryExec#shouldBroadcast
をtrueに設定する必要があります - オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。SHALLOW CLONE
Iceberg と Parquet を使用した増分更新のパフォーマンスを改善します。- Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-43404][バックポート] ID不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアのsstファイルの再利用をスキップします。
- [SPARK-43340][CORE] イベントログのスタックトレースフィールドが欠落している問題を修正しました。
- [SPARK-43300][CORE] Guava Cacheの
NonFateSharingCache
ラッパー。 - [SPARK-43378][CORE]
deserializeFromChunkedBuffer
内のストリームオブジェクトを適切に閉じます。 - [SPARK-16484][SQL] DataSketchesの表現には8ビット登録する。
- [SPARK-43522][SQL] 配列のインデックスを持つ構造体列名の作成を修正。
- [SPARK-43413] [11.3-13.0] [SQL]
IN
サブクエリListQuery
null 値の許容性を修正しました。 - [SPARK-43043][CORE]
MapOutputTracker.updateMapOutput
のパフォーマンスを改善しました。 - [SPARK-16484][SQL] DataSketches HllSketchのサポートを追加。
- [SPARK-43123][SQL] 内部フィールドのメタデータがカタログにリークしなくなりました。
- [SPARK-42851][SQL]
EquivalentExpressions.addExpr()``supportedExpression()
. - [SPARK-43336][SQL]
Timestamp
とTimestampNTZ
間のキャストにはタイムゾーンが必要です。 - [SPARK-43286][SQL] ランダムなIVを生成するようにCBCモード
aes_encrypt
更新しました。 - [SPARK-42852][SQL]
EquivalentExpressions
からのNamedLambdaVariable
関連の変更を元に戻しました。 - [SPARK-43541][SQL] 式と欠落している列の解決ですべての
Project
タグを伝播します。 - [SPARK-43527] [Python] PySparkの
catalog.listCatalogs
を修正しました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年5月31日
- に登録された テーブルに対する最適化された書き込みサポートが拡張され、パーティション化されたテーブルの ステートメントとDelta Unity Catalog
CTAS
操作が含まれるようになりました。INSERT
この動作は、 SQLウェアハウスのデフォルトに合わせて調整されます。 「Databricks 上の Delta Lake の最適化された書き込み」を参照してください。
- に登録された テーブルに対する最適化された書き込みサポートが拡張され、パーティション化されたテーブルの ステートメントとDelta Unity Catalog
-
2023年5月17日
-
_metadata.file_path
と_metadata.file_name
が誤ってフォーマットされた文字列を返すリグレッションを修正しました。たとえば、スペースを含むパスは、s3://test-bucket/some directory/some data.csv
ではなくs3://test-bucket/some%20directory/some%20data.csv
として表されます。 -
Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
-
- Avro ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。
- Avro ファイルが
-
Auto Loader では、次の処理が行われます。
-
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプは正しく読み取られ、レスキューされなくなりましたが、Avro ファイルでは他の 2 つのタイプのいずれかが提案されます。
-
- 日付またはタイムスタンプ型として間隔型を読み取らないようにして、日付が破損しないようにします。
-
- 精度の低い
Decimal
型の読み取りを防止します。
- 精度の低い
-
[SPARK-43172] [CONNECT] Spark Connectクライアントからホストとトークンを公開する。
-
[SPARK-43293][SQL]
__qualified_access_only
は、通常の列で無視されます。 -
[SPARK-43098][SQL] スカラーサブクエリが句ごとにグループ化されている場合のバグ
COUNT
正確性を修正しました。 -
[SPARK-43085][SQL] マルチパートテーブル名の列
DEFAULT
の割り当てのサポート。 -
[SPARK-43190][SQL]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 -
[SPARK-43192] [CONNECT] ユーザーエージェントの文字セット検証を削除しました。
-
-
2023年4月25日
- Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用して Delta テーブル機能のサポートを追加できます。 SYNC
コマンドで、従来のデータソース形式がサポートされるようになりました。- Python ノートブックで他のコマンドを実行する前に Python フォーマッタを使用すると、ノートブックのパスが
sys.path.
- Databricks で、 Delta テーブルの列にデフォルト値を指定できるようになりました。
INSERT
、UPDATE
、DELETE
、およびMERGE
コマンドは、明示的なDEFAULT
キーワードを使用してカラムのデフォルト値を参照できます。 ターゲット・テーブルよりも少ない列の明示的なリストを持つINSERT
コマンドの場合、対応する列のデフォルト値が残りの列に置き換えられます (デフォルトが指定されていない場合はNULL
)。
- Delta テーブルを変更して、
-
一部のユーザーでWebターミナルを使用して
/Workspace
内のファイルにアクセスできないバグを修正します。- Parquet ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 - Auto Loader は正しく読み取り、
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプをレスキューしなくなりました。 Parquet ファイルでは、他の 2 つのタイプのいずれかが提案されています。 救出されたデータ列が以前に有効になっていた場合、データ型の不一致により、列が読み取り可能であっても救出されることがありました。 - Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると、スキーマの進化JSON 無限失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42794][SS] Structure ストリーミングで RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やします。
- [SPARK-39221][SQL] Thriftサーバージョブ/ステージタブの機密情報が正しく編集されるようにします。
- [SPARK-42971][CORE] ワーカーがイベントを処理するときに
appDirs
がnullの場合WorkDirCleanup
印刷workdir
に変更。 - [SPARK-42936][SQL] HAVING句を子アグリゲートで直接解決できる場合のLCAバグを修正。
- [SPARK-43018][SQL] タイムスタンプリテラルを含む
INSERT
コマンドのバグを修正。 - 元に戻す [SPARK-42754][SQL][UI] ネストされた SQL 実行の後方互換性の問題を修正します。
- 元に戻す [SPARK-41498] Union を介してメタデータを伝播します。
- [SPARK-43038] [SQL] CBCモードを
aes_encrypt()
/aes_decrypt()
でサポート。 - [SPARK-42928][SQL]
resolvePersistentFunction
同期させます。 - [SPARK-42521][SQL] ターゲットテーブルよりも列数が少ないユーザー指定のリストを持つ
INSERT
にNULL
値を追加します。 - [SPARK-41391][SQL]
groupBy.agg(count_distinct)
の出力列名が正しくありませんでした。 - [SPARK-42548][SQL] 属性の書き換えをスキップする
ReferenceAllColumns
を追加します。 - [SPARK-42423][SQL] メタデータ列ファイルブロックの開始と長さを追加します。
- [SPARK-42796][SQL]
CachedBatch
のTimestampNTZ
列へのアクセスをサポート。 - [SPARK-42266][Python] IPythonが使用されている場合は、シェル.py実行の親ディレクトリを削除します。
- [SPARK-43011][SQL]
array_insert
インデックスが 0 で失敗するはずです。 - [SPARK-41874][CONNECT][Python] Spark Connectで
SameSemantics
をサポートします。 - [SPARK-42702][スパーク-42623][SQL]サブクエリと CTE でのパラメーター化クエリをサポートします。
- [SPARK-42967][CORE] ステージがキャンセルされた後にタスクが開始されたときの
SparkListenerTaskStart.stageAttemptId
を修正。 - オペレーティング システムのセキュリティ更新プログラム。
- Parquet ファイルが
Databricks Runtime 12.1 (EoS)
「Databricks Runtime 12.1 (EoS)」を参照してください。
-
2023年6月23日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 - Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [SPARK-43779][SQL]
ParseToDate
メインスレッドでEvalMode
をロードするようになりました。 - [SPARK-43156][スパーク-43098][SQL]decorrelateInnerQuery を無効にしたスカラー サブクエリ数の拡張バグ テスト
- オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。SHALLOW CLONE
Iceberg と Parquet を使用した増分更新のパフォーマンスを改善します。- Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-43404][バックポート] ID不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアのsstファイルの再利用をスキップします。
- [SPARK-43413] [11.3-13.0] [SQL]
IN
サブクエリListQuery
null 値の許容性を修正しました。 - [SPARK-43522][SQL] 配列のインデックスを持つ構造体列名の作成を修正。
- [SPARK-42444][Python]
DataFrame.drop
重複した列を適切に処理するようになりました。 - [SPARK-43541][SQL] 式と欠落している列の解決ですべての
Project
タグを伝播します。 - [SPARK-43340][CORE] イベントログのスタックトレースフィールドが欠落している問題を修正しました。
- [SPARK-42937][SQL]
PlanSubqueries
InSubqueryExec#shouldBroadcast
を true に設定するようになりました。 - [SPARK-43527] [Python] PySparkの
catalog.listCatalogs
を修正しました。 - [SPARK-43378][CORE]
deserializeFromChunkedBuffer
内のストリームオブジェクトを適切に閉じます。
-
2023年5月17日
-
Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
-
Avro ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 -
Auto Loader では、次の処理が行われます。
-
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプは正しく読み取られ、レスキューされなくなりましたが、Avro ファイルでは他の 2 つのタイプのいずれかが提案されます。
-
- 日付またはタイムスタンプ型として間隔型を読み取らないようにして、日付が破損しないようにします。
-
- 精度の低い
Decimal
型の読み取りを防止します。
- 精度の低い
-
[SPARK-43098][SQL] スカラーサブクエリが句ごとにグループ化されている場合のバグ
COUNT
正確性を修正しました。 -
[SPARK-43190][SQL]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 -
オペレーティング システムのセキュリティ更新プログラム。
-
-
2023年4月25日
- Parquet ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 - Auto Loader は正しく読み取り、
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプをレスキューしなくなりました。 Parquet ファイルでは、他の 2 つのタイプのいずれかが提案されています。 救出されたデータ列が以前に有効になっていた場合、データ型の不一致により、列が読み取り可能であっても救出されることがありました。 - [SPARK-43009][SQL]
Any
定数を持つパラメーター化されたsql()
。 - [SPARK-42971][CORE] ワーカーがイベントを処理するときに
appDirs
がnullの場合WorkDirCleanup
印刷workdir
に変更。 - オペレーティング システムのセキュリティ更新プログラム。
- Parquet ファイルが
-
2023年4月11日
- SYNCコマンドで従来のデータソース形式をサポートします。
- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正します。
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると、スキーマの進化JSON 無限失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL]
resolvePersistentFunction
を同期させます。 - [SPARK-42967][CORE] ステージがキャンセルされた後にタスクが開始される
SparkListenerTaskStart.stageAttemptId
を修正します。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月29日
- Auto Loader では、
Trigger.AvailableNow
ストリームに対して少なくとも 1 つの同期 RocksDB ログのクリーンアップがトリガーされ、高速に実行される Auto Loader ストリームに対してチェックポイントが定期的にクリーンアップされるようになりました。 これにより、一部のストリームがシャットダウンするまでに時間がかかる場合がありますが、ストレージ コストを節約し、将来の実行で Auto Loader エクスペリエンスを向上させることができます。 - Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用してテーブル機能にサポートを追加できるようになりました。 - [SPARK-42702][スパーク-42623][SQL]サブクエリと CTE でのパラメータ化クエリのサポート
- [SPARK-41162][SQL] アグリゲーションを使用した自己結合のアンチジョインとセミジョインを修正
- [SPARK-42403][CORE] JsonProtocolはnull JSON 文字列を処理する必要があります
- [SPARK-42668] [SS] HDFSStateStoreProvider の中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- [SPARK-42794][SS] Structure ストリーミングで RocksDB 状態ストアを取得するためのlockAcquireTimeoutMsを2分に増やします
- Auto Loader では、
-
2023年3月14日
- table プロパティを使用して Delta テーブルに機能を追加するための用語が変更されました。 推奨される構文は、
'delta.feature.featureName'='enabled'
ではなく'delta.feature.featureName'='supported'
になりました。下位互換性のために、'delta.feature.featureName'='enabled'
の使用は引き続き機能し、引き続き機能します。 - [SPARK-42622][CORE] 値の置換を無効にする
- [SPARK-42534][SQL] DB2Dialect Limit句を修正
- [SPARK-42635][SQL] TimestampAdd式を修正。
- [SPARK-42516][SQL] ビューの作成中に、常にセッションのタイムゾーン設定をキャプチャする
- [SPARK-42484] [SQL] UnsafeRowUtilsのエラーメッセージを改善しました
- [SPARK-41793][SQL] 大きな小数点の range 句で定義されたウィンドウフレームの結果が正しくない
- オペレーティング システムのセキュリティ更新プログラム。
- table プロパティを使用して Delta テーブルに機能を追加するための用語が変更されました。 推奨される構文は、
-
2023年2月24日
- Query Federation でサポートされているデータソース (PostgreSQL、 MySQL、 Synapse、 Snowflake、 Redshift、 SQL Server) に接続するための、統一されたオプション (
host
、port
、database
、user
、password
) を使用できるようになりました 。port
はオプションであり、指定されていない場合は各データソースのデフォルトのポート番号を使用することに注意してください。
PostgreSQL接続設定例
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Snowflake接続設定の例
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
);- [SPARK-41989][Python] PySpark.pandasからのログ設定を壊さないように
- [SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
- [SPARK-41990][SQL] V1からV2へのフィルター変換で
apply
の代わりにFieldReference.column
を使用 - 元に戻す [SPARK-41848] [CORE] TaskResourceProfileでスケジュールされたタスクの修正
- [SPARK-42162] 可換式の大きな木を正規化するためのメモリ最適化として MultiCommutativeOp 式を紹介します
- オペレーティング システムのセキュリティ更新プログラム。
- Query Federation でサポートされているデータソース (PostgreSQL、 MySQL、 Synapse、 Snowflake、 Redshift、 SQL Server) に接続するための、統一されたオプション (
-
2023年2月16日
- SYNC コマンドは、再作成された Hive metastore テーブルの同期をサポートしています。 HMS テーブルが以前に Unity Catalog に SYNC されたが、その後削除されて再作成された場合、ステータス コードはスローされずTABLE_ALREADY_EXISTS後続の再同期が機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表します
- [SPARK-36173][CORE] TaskContextでのCPU番号の取得をサポート
- [SPARK-41848][CORE] TaskResourceProfileでタスクが過剰にスケジュールされている問題を修正
- [SPARK-42286][SQL] CASTを使用した複雑なexprの以前のcodegenコードパスへのフォールバック
-
2023年1月31日
- 定義されたロケーションでスキーマを作成するには、ANY FILE に対する SELECT 権限と MODIFY 権限がユーザーに必要になりました。
- [SPARK-41581][SQL] _LEGACY_ERROR_TEMP_1230に名前を割り当てる
- [SPARK-41996] [SQL][SS] KafkaKafka操作が遅いためにアカウントに失われたパーティションを確認するテストを修正
- [SPARK-41580][SQL] _LEGACY_ERROR_TEMP_2137に名前を割り当てる
- [SPARK-41666][Python] パラメータ化された SQL のサポート
sql()
- [SPARK-41579][SQL] _LEGACY_ERROR_TEMP_1249に名前を割り当てる
- [SPARK-41573][SQL] _LEGACY_ERROR_TEMP_2136に名前を割り当てる
- [SPARK-41574][SQL] _LEGACY_ERROR_TEMP_2009に名前を割り当てる
- [SPARK-41049][フォローアップ] ConvertToLocalRelationのコード同期リグレッションを修正
- [SPARK-41576][SQL] _LEGACY_ERROR_TEMP_2051に名前を割り当てる
- [SPARK-41572][SQL] _LEGACY_ERROR_TEMP_2149に名前を割り当てる
- [SPARK-41575][SQL] _LEGACY_ERROR_TEMP_2054に名前を割り当てる
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 12.0 (EoS)
「Databricks Runtime 12.0 (EoS)」を参照してください。
-
2023年6月15日
- フォトナイズド
approx_count_distinct
。 - Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- [SPARK-43156][スパーク-43098][SQL]decorrelateInnerQuery を無効にしたスカラー サブクエリ数の拡張バグ テスト
- [SPARK-43779][SQL]
ParseToDate
メインスレッドでEvalMode
をロードするようになりました。 - オペレーティング システムのセキュリティ更新プログラム。
- フォトナイズド
-
2023年6月2日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードをドロップし、FAILFAST
モードで直接失敗します。SHALLOW CLONE
Iceberg と Parquet を使用した増分更新のパフォーマンスを改善します。- Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
- [SPARK-42444][Python]
DataFrame.drop
重複した列を適切に処理するようになりました。 - [SPARK-43404][バックポート] ID不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアのsstファイルの再利用をスキップします。
- [SPARK-43413] [11.3-13.0] [SQL]
IN
サブクエリListQuery
null 値の許容性を修正しました。 - [SPARK-43527] [Python] PySparkの
catalog.listCatalogs
を修正しました。 - [SPARK-43522][SQL] 配列のインデックスを持つ構造体列名の作成を修正。
- [SPARK-43541][SQL] 式と欠落している列の解決ですべての
Project
タグを伝播します。 - [SPARK-43340][CORE] イベントログのスタックトレースフィールドが欠落している問題を修正しました。
- [SPARK-42937][SQL]
PlanSubqueries
InSubqueryExec#shouldBroadcast
を true に設定します。
-
2023年5月17日
-
Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
-
Avro ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 -
Auto Loader では、次の処理が行われます。
-
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプは正しく読み取られ、レスキューされなくなりましたが、Avro ファイルでは他の 2 つのタイプのいずれかが提案されます。
-
- 日付またはタイムスタンプ型として間隔型を読み取らないようにして、日付が破損しないようにします。
-
- 精度の低い
Decimal
型の読み取りを防止します。
- 精度の低い
-
[SPARK-43172] [CONNECT] Spark Connectクライアントからホストとトークンを公開する。
-
[SPARK-41520][SQL]
AND
とOR
を分離するためにAND_OR
ツリーパターンを分割します。 -
[SPARK-43098][SQL] スカラーサブクエリが句ごとにグループ化されている場合のバグ
COUNT
正確性を修正しました。 -
[SPARK-43190][SQL]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 -
オペレーティング システムのセキュリティ更新プログラム。
-
-
2023年4月25日
- Parquet ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 - Auto Loader は正しく読み取り、
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプをレスキューしなくなりました。 Parquet ファイルでは、他の 2 つのタイプのいずれかが提案されています。 救出されたデータ列が以前に有効になっていた場合、データ型の不一致により、列が読み取り可能であっても救出されることがありました。 - [SPARK-42971][CORE] ワーカーがイベントを処理するときに
appDirs
がnullの場合WorkDirCleanup``workdir
を印刷するように変更 - オペレーティング システムのセキュリティ更新プログラム。
- Parquet ファイルが
-
2023年4月11日
SYNC
コマンドで従来のデータソース形式をサポートします。- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正します。
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると、スキーマの進化JSON 無限失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL]
resolvePersistentFunction
を同期させます。 - [SPARK-42967][CORE] ステージがキャンセルされた後にタスクが開始される
SparkListenerTaskStart.stageAttemptId
を修正します。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月29日
- [SPARK-42794][SS] Structure ストリーミングで RocksDB 状態ストアを取得するためのlockAcquireTimeoutMsを2分に増やします
- [SPARK-41162][SQL] アグリゲーションを使用した自己結合のアンチジョインとセミジョインを修正
- [SPARK-42403][CORE] JsonProtocolはnull JSON 文字列を処理する必要があります
- [SPARK-42668] [SS] HDFSStateStoreProvider の中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- その他のバグ修正。
-
2023年3月14日
- [SPARK-42534][SQL] DB2Dialect Limit句を修正
- [SPARK-42622][CORE] 値の置換を無効にする
- [SPARK-41793][SQL] 大きな小数点の range 句で定義されたウィンドウフレームの結果が正しくない
- [SPARK-42484] [SQL] UnsafeRowUtilsのエラーメッセージを改善しました
- [SPARK-42635][SQL] TimestampAdd式を修正。
- [SPARK-42516][SQL] ビューの作成中に、常にセッションのタイムゾーン設定をキャプチャする
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月24日
-
クエリフェデレーションの標準化された接続オプション
Query Federation でサポートされているデータソース (PostgreSQL、 MySQL、 Synapse、 Snowflake、 Redshift、 SQL Server) に接続するための、統一されたオプション (
host
、port
、database
、user
、password
) を使用できるようになりました 。port
はオプションであり、指定されていない場合は各データソースのデフォルトのポート番号を使用することに注意してください。PostgreSQL接続設定例
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Snowflake接続設定の例
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
); -
元に戻す [SPARK-41848] [CORE] TaskResourceProfileでスケジュールされたタスクの修正
-
[SPARK-42162] 可換式の大きな木を正規化するためのメモリ最適化として MultiCommutativeOp 式を紹介します
-
[SPARK-41990][SQL] V1からV2へのフィルター変換で
apply
の代わりにFieldReference.column
を使用 -
[SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2023年2月16日
- ユーザーは、Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに一覧表示されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドは、再作成された Hive metastore テーブルの同期をサポートしています。 HMS テーブルが以前に Unity Catalog に SYNC されたが、その後削除されて再作成された場合、ステータス コードはスローされずTABLE_ALREADY_EXISTS後続の再同期が機能します。
- [SPARK-36173][CORE] TaskContextでのCPU番号の取得をサポート
- [SPARK-42286][SQL] CASTを使用した複雑なexprの以前のcodegenコードパスへのフォールバック
- [SPARK-41848][CORE] TaskResourceProfileでタスクが過剰にスケジュールされている問題を修正
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表します
-
2023年1月25日
- [SPARK-41660][SQL] メタデータ列が使用されている場合にのみ伝播するようにします
- [SPARK-41379][SS][Python] クローン化されたスパークセッションをユーザー関数の DataFrame で提供 foreachBatch PySpark
- [SPARK-41669][SQL] canCollapseExpressions の早期プルーニング
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月18日
REFRESH FUNCTION
SQL コマンドで SQL 関数と SQL テーブル関数がサポートされるようになりました。 例えば、このコマンドを使用して、別の SQL セッションで更新された永続 SQL 関数をリフレッシュできます。- Java Database Connectivity (JDBC) データソース v1 では、クエリのパフォーマンスを向上させるために、LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能はデフォルトで有効になっており、
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
をfalse
に設定して無効にすることができます。 - レガシーテーブル ACL クラスターでは、 JVM クラスを参照する関数を作成するには、
MODIFY_CLASSPATH
権限が必要になりました。 - Java Database Connectivity (JDBC) データソース v1 では、クエリのパフォーマンスを向上させるために、LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能はデフォルトで有効になっており、spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled を false に設定して無効にすることができます。
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - Spark 構造化ストリーミングが、デルタ共有テーブルの format("deltasharing") をソースとして動作するようになりました。
- [SPARK-38277][SS] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- [SPARK-41733][SQL][SS] ルールResolveWindowTimeにツリーパターンベースのプルーニングを適用する
- [SPARK-39591][SS] 非同期進行状況追跡
- [SPARK-41339][SQL] RocksDBの書き込みバッチをクリアするだけでなく、閉じて再作成します
- [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリクスを修正
- [SPARK-41539][SQL] LogicalRDDの論理プランの出力に対して統計と制約を再マッピング
- [SPARK-41732][SQL][SS] ルールSessionWindowingにツリーパターンベースのプルーニングを適用
- [SPARK-41862][SQL] Orcリーダーのデフォルト値に関連する正確性のバグを修正
- [SPARK-41199][SS] DSv1 ストリーミング ソース と DSv2 ストリーミング ソースが同時に使用されている場合のメトリクスの問題を修正
- [SPARK-41261][Python][SS] グループ化キーの列が古い順に配置されていない場合のapplyInPandasWithStateの問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年5月17日
- Parquet スキャンは、バッチ サイズを動的に調整することにより、例外的に構造化されたファイルをスキャンするときに OOM に対して堅牢になりました。 ファイルメタデータは、バッチサイズを事前に小さくするために分析され、最終的なセーフティネットとしてタスクの再試行時に再び小さくなります。
- クラスターの初期化中にメタストアへの接続に失敗した後もジョブが保持される原因となった回帰を修正 Databricks 。
- [SPARK-41520][SQL]
AND
とOR
を分離するためにAND_OR
ツリーパターンを分割します。 - [SPARK-43190][SQL]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月25日
- Parquet ファイルが
failOnUnknownFields
オプションのみを使用して読み取られた場合、またはfailOnNewColumns
スキーマ進化モードで Auto Loader を使用して読み取られた場合、データ型が異なる列は、ファイルを読み取れないことを示すエラーをスローする代わりに、null
として読み取られます。これらの読み取りは失敗するようになったため、ユーザーにrescuedDataColumn
オプションの使用を推奨します。 - Auto Loader は正しく読み取り、
Integer
、Short
、Byte
タイプのいずれかが指定されている場合、これらのタイプをレスキューしなくなりました。 Parquet ファイルでは、他の 2 つのタイプのいずれかが提案されています。 救出されたデータ列が以前に有効になっていた場合、データ型の不一致により、列が読み取り可能であっても救出されることがありました。 - [SPARK-42937][SQL]
PlanSubqueries
InSubqueryExec#shouldBroadcast
を true に設定するようになりました。 - オペレーティング システムのセキュリティ更新プログラム。
- Parquet ファイルが
-
2023年4月11日
- SYNCコマンドで従来のデータソース形式をサポートします。
- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正します。
- Auto Loaderネストされた オブジェクトのスキーマで新しい列が検出されると、スキーマの進化JSON 無限失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL] resolvePersistentFunction を同期させます。
- [SPARK-42967][CORE] ステージがキャンセルされた後にタスクが開始されたときのSparkListenerTaskStart.stageAttemptIdを修正。
-
2023年3月29日
- [SPARK-42794][SS] Structure ストリーミングで RocksDB 状態ストアを取得するためのlockAcquireTimeoutMsを2分に増やします
- [SPARK-42403][CORE] JsonProtocolはnull JSON 文字列を処理する必要があります
- [SPARK-42668] [SS] HDFSStateStoreProvider の中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月14日
- [SPARK-42635][SQL] TimestampAdd式を修正。
- [SPARK-41793][SQL] 大きな小数点の range 句で定義されたウィンドウフレームの結果が正しくない
- [SPARK-42484] [SQL] UnsafeRowUtilsのエラーメッセージを改善しました
- [SPARK-42534][SQL] DB2Dialect Limit句を修正
- [SPARK-41162][SQL] アグリゲーションを使用した自己結合のアンチジョインとセミジョインを修正
- [SPARK-42516][SQL] ビューの作成中に、常にセッションのタイムゾーン設定をキャプチャする
- その他のバグ修正。
-
2023年2月28日
-
クエリフェデレーションの標準化された接続オプション
Query Federation でサポートされているデータソース (PostgreSQL、 MySQL、 Synapse、 Snowflake、 Redshift、 SQL Server) に接続するための、統一されたオプション (
host
、port
、database
、user
、password
) を使用できるようになりました 。port
はオプションであり、指定されていない場合は各データソースのデフォルトのポート番号を使用することに注意してください。PostgreSQL接続設定例
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
database '<database-name>',
user '<user>',
password secret('scope', 'key')
);Snowflake接続設定の例
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
dbtable '<table-name>',
host '<host-name>',
port '<port-number>',
database '<database-name>',
user secret('snowflake_creds', 'my_username'),
password secret('snowflake_creds', 'my_password'),
schema '<schema-name>',
sfWarehouse '<warehouse-name>'
); -
[SPARK-42286][SQL] CASTを使用した複雑なexprの以前のcodegenコードパスへのフォールバック
-
[SPARK-41989][Python] PySpark.pandasからのログ設定を壊さないように
-
[SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
-
[SPARK-41360][CORE] エグゼキューターが失われた場合、BlockManagerの再登録を避ける
-
[SPARK-42162] 可換式の大きな木を正規化するためのメモリ最適化として MultiCommutativeOp 式を紹介します
-
[SPARK-41990][SQL] V1からV2へのフィルター変換で
apply
の代わりにFieldReference.column
を使用 -
オペレーティング システムのセキュリティ更新プログラム。
-
-
2023年2月16日
- ユーザーは、Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに一覧表示されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドは、再作成された Hive metastore テーブルの同期をサポートしています。 HMS テーブルが以前に Unity Catalog に SYNC されたが、その後削除されて再作成された場合、ステータス コードはスローされずTABLE_ALREADY_EXISTS後続の再同期が機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表します
- [SPARK-40382][SQL] 異なる集計式を、意味的に等価な子ごとにグループ化します。
RewriteDistinctAggregates
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月25日
- [SPARK-41379][SS][Python] クローン化されたスパークセッションをユーザー関数の DataFrame で提供 foreachBatch PySpark
- [SPARK-41660][SQL] メタデータ列が使用されている場合にのみ伝播するようにします
- [SPARK-41669][SQL] canCollapseExpressions の早期プルーニング
- その他のバグ修正。
-
2023年1月18日
REFRESH FUNCTION
SQL コマンドで SQL 関数と SQL テーブル関数がサポートされるようになりました。 例えば、このコマンドを使用して、別の SQL セッションで更新された永続 SQL 関数をリフレッシュできます。- Java Database Connectivity (JDBC) データソース v1 では、クエリのパフォーマンスを向上させるために、LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能はデフォルトで有効になっており、
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
をfalse
に設定して無効にすることができます。 - Java Database Connectivity (JDBC) データソース v1 では、クエリのパフォーマンスを向上させるために、LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能はデフォルトで有効になっており、spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled を false に設定して無効にすることができます。
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリクスを修正
- [SPARK-41862][SQL] Orcリーダーのデフォルト値に関連する正確性のバグを修正
- [SPARK-41539][SQL] LogicalRDDの論理プランの出力に対して統計と制約を再マッピング
- [SPARK-39591][SS] 非同期進行状況追跡
- [SPARK-41199][SS] DSv1 ストリーミング ソース と DSv2 ストリーミング ソースが同時に使用されている場合のメトリクスの問題を修正
- [SPARK-41261][Python][SS] グループ化キーの列が古い順に配置されていない場合のapplyInPandasWithStateの問題を修正
- [SPARK-41339][SQL] RocksDBの書き込みバッチをクリアするだけでなく、閉じて再作成します
- [SPARK-41732][SQL][SS] ルールSessionWindowingにツリーパターンベースのプルーニングを適用
- [SPARK-38277][SS] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月29日
-
ユーザーは、Redshift コネクタを使用してデータを書き込む際の先頭と末尾の空白の動作を構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から先頭の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。csvignoretrailingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中の値から末尾の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。
-
すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合)、JSONにネストされたオブジェクトが含まれている場合の Auto Loader での JSON 解析のバグを修正しました。 -
依存関係
snowflake-jdbc
バージョン 3.13.22 にアップグレードします。 -
JDBC テーブルのテーブル・タイプがデフォルトで EXTERNAL になりました。
-
[SPARK-40906][SQL] マップに挿入する前にキーをコピーすべき
Mode
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2022年11月15日
- テーブル ACL と UC 共有クラスターでは、 Pythonからデータセット.toJSON メソッドを使用できるようになりました。
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
true``spark.sql.json.enablePartialResults
を設定します。このフラグは、元の動作を保持するためにデフォルトで無効になっています - [SPARK-40903][SQL] データ型が変更された場合、正規化のための小数点以下の並べ替えを避ける
- [SPARK-40618][SQL] 参照追跡を使用するネストされたサブクエリのMergeScalarSubqueriesルールのバグを修正
- [SPARK-40697][SQL] 外部データファイルをカバーするために、読み取り側のcharパディングを追加
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月1日
-
Unity Catalog の構造化ストリーミングで、一時的なアクセス トークンの更新がサポートされるようになりました。 Unity Catalog all purpose または job クラスターで実行されているストリーミング ワークロードは、最初のトークンの有効期限が切れた後に失敗しなくなりました。
-
Deltaテーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード が無効になっている場合、MERGE
の実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 -
MERGE
を実行し、条件でソースから正確に 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
になる可能性がある問題を修正しました。 -
allowOverwrites
が有効になっているときに、ファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました。 -
Apache commons-text を 1.10.0 に更新しました。
-
[SPARK-38881][DSTREAMS][KINESIS][PySpark] CloudWatch MetricsLevel Configのサポートを追加
-
[SPARK-40596][CORE] ExecutorDecommissionInfoにメッセージを追加
-
[SPARK-40670][SS][Python] 入力スキーマに「null非許容」列がある場合のapplyInPandasWithStateのNPEを修正
-
オペレーティング システムのセキュリティ更新プログラム。
-
Databricks Runtime 11.2 (EoS)
「Databricks Runtime 11.2 (EoS)」を参照してください。
-
2023年2月28日
- [SPARK-42286][SQL] CASTを使用した複雑なexprの以前のcodegenコードパスへのフォールバック
- [SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月16日
- ユーザーは、Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに一覧表示されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドは、再作成された Hive metastore テーブルの同期をサポートしています。 HMS テーブルが以前に Unity Catalog に SYNC されたが、その後削除されて再作成された場合、ステータス コードはスローされずTABLE_ALREADY_EXISTS後続の再同期が機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表します
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月31日
- JDBC テーブルのテーブル・タイプがデフォルトで EXTERNAL になりました。
- [SPARK-41379][SS][Python] クローン化されたスパークセッションをユーザー関数の DataFrame で提供 foreachBatch PySpark
-
2023年1月18日
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリクスを修正
- [SPARK-41862][SQL] Orcリーダーのデフォルト値に関連する正確性のバグを修正
- [SPARK-41539][SQL] LogicalRDDの論理プランの出力に対して統計と制約を再マッピング
- [SPARK-41199][SS] DSv1 ストリーミング ソース と DSv2 ストリーミング ソースが同時に使用されている場合のメトリクスの問題を修正
- [SPARK-41339][SQL] RocksDBの書き込みバッチをクリアするだけでなく、閉じて再作成します
- [SPARK-41732][SQL][SS] ルールSessionWindowingにツリーパターンベースのプルーニングを適用
- [SPARK-38277][SS] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティ更新プログラム。
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
-
2022年11月29日
-
ユーザーは、Redshift コネクタを使用してデータを書き込む際の先頭と末尾の空白の動作を構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から先頭の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。csvignoretrailingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中の値から末尾の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。
-
すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合)、JSONにネストされたオブジェクトが含まれている場合の Auto Loader での JSON 解析のバグを修正しました。 -
[SPARK-40906][SQL] マップに挿入する前にキーをコピーすべき
Mode
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2022年11月15日
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 このフラグは、元の動作を保持するためにデフォルトで無効になっています - [SPARK-40618][SQL] 参照追跡を使用するネストされたサブクエリのMergeScalarSubqueriesルールのバグを修正
- [SPARK-40697][SQL] 外部データファイルをカバーするために、読み取り側のcharパディングを追加
- オペレーティング システムのセキュリティ更新プログラム。
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
-
2022年11月1日
- Apache commons-text を 1.10.0 に更新しました。
- Deltaテーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード が無効になっている場合、MERGE
の実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 MERGE
を実行し、条件でソースから正確に 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
になる可能性がある問題を修正しました。allowOverwrites
が有効になっているときにファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました- [SPARK-40596][CORE] ExecutorDecommissionInfoにメッセージを追加
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月19日
- COPY INTOUnity Catalogが有効になっているクラスター / ウェアハウスでの一時的な資格情報を使用した の使用に関する問題を修正しました。
- [SPARK-40213][SQL] Latin-1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", を設定できる) "true") を使用して、ADLS Gen2 で Auto Loader のネイティブ リストを再度有効にします。 ネイティブ リストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 および 9.1 にロールアウトされました。
- [SPARK-40315][SQL]組み込み関数としてのURLエンコード/デコードをサポートし、URL関連関数を整理
- [SPARK-40156][SQL] エラークラスを返す
url_decode()
- 【スパーク-40169】 データ スキーマへの参照なしで Parquet フィルターをプッシュダウンしないでください
- [SPARK-40460][SS] 選択時のストリーミング メトリクスを修正
_metadata
- [SPARK-40468][SQL] _corrupt_recordが選択されている場合のCSVの列のプルーニングを修正
- [SPARK-40055][SQL] listCatalogsは、実装がdefaultSessionCatalogの場合でもspark_catalog spark_catalogを返す必要があります
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- [SPARK-40315][SQL] ArrayBasedMapDataのリテラルにhashCode()を追加
- [SPARK-40389][SQL] キャストがオーバーフローする場合、小数点を整数型としてアップキャストできない
- [SPARK-40380][SQL] InvokeLikeの定数フォールディングを修正し、プランに埋め込まれたシリアル化不可能なリテラルを回避する
- [SPARK-40066][SQL][フォローアップ] DataTypeを取得する前にElementAtが解決されているかどうか確認
- [SPARK-40109][SQL]新しいSQL関数:get()
- [SPARK-40066][SQL] ANSIモード:マップ列への無効なアクセスで常にnullを返す
- [SPARK-40089][SQL] 一部のDecimal型のソートを修正
- [SPARK-39887][SQL] RemoveRedundantAliasesは、プロジェクションノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] codegen split_partコンパイルの問題を修正
- [SPARK-40235][CORE] エグゼキューター.updateDependencies()で同期の代わりに割り込みロックを使用
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETSはグループ化列を保持する必要があります
- [SPARK-35542][ML] 修正:パラメーターを使用して複数の列に対してBucketizerが作成される
- 【スパーク-40079】 空の入力ケースに対する Imputer inputCols 検証を追加
- [スパーク-39912]スパーク-39828[SQL]CatalogImpl の絞り込み
Databricks Runtime 11.1 (EoS)
「Databricks Runtime 11.1 (EoS)」を参照してください。
-
2023年1月31日
- [SPARK-41379][SS][Python] クローン化されたスパークセッションをユーザー関数の DataFrame で提供 foreachBatch PySpark
- その他のバグ修正。
-
2023年1月18日
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
. - [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリクスを修正
- [SPARK-41862][SQL] Orcリーダーのデフォルト値に関連する正確性のバグを修正
- [SPARK-41199][SS] DSv1 ストリーミング ソース と DSv2 ストリーミング ソースが同時に使用されている場合のメトリクスの問題を修正
- [SPARK-41339][SQL] RocksDBの書き込みバッチをクリアするだけでなく、閉じて再作成します
- [SPARK-41732][SQL][SS] ルールSessionWindowingにツリーパターンベースのプルーニングを適用
- [SPARK-38277][SS] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティ更新プログラム。
- Azure Synapse コネクタは、列名に空白やセミコロンなどの無効な文字が含まれている場合に、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます:
-
2022年11月29日
-
ユーザーは、Redshift コネクタを使用してデータを書き込む際の先頭と末尾の空白の動作を構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から先頭の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。csvignoretrailingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中の値から末尾の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。
-
すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合)、JSONにネストされたオブジェクトが含まれている場合の Auto Loader での JSON 解析のバグを修正しました。 -
[SPARK-39650][SS] 下位互換性のあるストリーミング重複排除の誤った値スキーマを修正
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2022年11月15日
- 【スパーク-40646】 構造体、マップ、および配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 このフラグは、元の動作を保持するためにデフォルトで無効になっています - オペレーティング システムのセキュリティ更新プログラム。
- 【スパーク-40646】 構造体、マップ、および配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。改善された動作をオプトインするには、
-
2022年11月1日
- Apache commons-text を 1.10.0 に更新しました。
- Deltaテーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード が無効になっている場合、MERGE
の実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 MERGE
を実行し、条件でソースから正確に 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
になる可能性がある問題を修正しました。allowOverwrites
が有効になっているときにファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました- [SPARK-40697][SQL] 外部データファイルをカバーするために、読み取り側のcharパディングを追加
- [SPARK-40596][CORE] ExecutorDecommissionInfoにメッセージを追加
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月18日
- COPY INTOUnity Catalogが有効になっているクラスター / ウェアハウスでの一時的な資格情報を使用した の使用に関する問題を修正しました。
- [SPARK-40213][SQL] Latin-1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", を設定できる) "true") を使用して、ADLS Gen2 で Auto Loader のネイティブ リストを再度有効にします。 ネイティブ リストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 および 9.1 にロールアウトされました。
- 【スパーク-40169】 データ スキーマへの参照なしで Parquet フィルターをプッシュダウンしないでください
- [SPARK-40460][SS] 選択時のストリーミング メトリクスを修正
_metadata
- [SPARK-40468][SQL] _corrupt_recordが選択されている場合のCSVの列のプルーニングを修正
- [SPARK-40055][SQL] listCatalogsは、実装がdefaultSessionCatalogの場合でもspark_catalog spark_catalogを返す必要があります
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- [SPARK-40315][SQL] ArrayBasedMapDataのリテラルにhashCode()を追加
- [SPARK-40380][SQL] InvokeLikeの定数フォールディングを修正し、プランに埋め込まれたシリアル化不可能なリテラルを回避する
- [SPARK-40089][SQL] 一部のDecimal型のソートを修正
- [SPARK-39887][SQL] RemoveRedundantAliasesは、プロジェクションノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] codegen split_partコンパイルの問題を修正
-
2022年9月6日
- テーブルアクセスコントロール (Table ACLs) のパーミッションモデルを更新し、テーブルのスキーマまたはテーブルプロパティを ALTER TABLEで変更するために必要なのは MODIFY パーミッションのみであるようにしました。 以前は、これらの操作では、ユーザーがテーブルを所有する必要がありました。 テーブルに対するパーミッションの付与、所有者の変更、場所の変更、または名前の変更には、所有権が引き続き必要です。 この変更により、Table ACL のアクセス許可モデルと Unity Catalog の一貫性が向上します。
- [SPARK-40235][CORE] エグゼキューター.updateDependencies()で同期の代わりに割り込みロックを使用
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETSはグループ化列を保持する必要があります
- [SPARK-39976][SQL] ArrayIntersect は左の式で null を正しく処理する必要があります
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセルケースに
assume
を追加 - [SPARK-35542][CORE][ML] 修正: パラメーターsplitsArray、inputColls、outputColsを持つ複数の列に対して作成されたBucketizerを、保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対するImputer inputCols検証を追加
-
2022年8月24日
- 共有、プロバイダ、受信者が、所有者の変更、コメント、名前の変更を行う SQL コマンドをサポートするようになりました
- [SPARK-39983][CORE][SQL] ドライバーのシリアル化されていないブロードキャスト関係をキャッシュしない
- [スパーク-39912][スパーク-39828][SQL]CatalogImpl の絞り込み
- [SPARK-39775][CORE][AVRO] Avroスキーマの解析時にデフォルト値の検証を無効にする
- [スパーク-39806] パーティション分割されたテーブルで METADATA struct にアクセスするクエリがクラッシュする問題を修正しました
- [SPARK-39867][SQL] グローバル制限がOrderPreservingUnaryNodeを継承すべきではない
- [SPARK-39962][Python][SQL] グループ属性が空の場合に投影を適用する
- [SPARK-39839][SQL] UnsafeRow構造整合性チェックで、ゼロ以外のoffsetAndSizeを持つnull可変長Decimalの特殊なケースを処理します
- [SPARK-39713][SQL] ANSIモード:INVALID_ARRAY_INDEXエラーにtry_element_atを使用する提案を追加
- [SPARK-39847][SS] 呼び出し元のスレッドが中断された場合のRocksDBLoader.loadLibrary()の競合状態を修正
- [SPARK-39731][SQL] CORRECTED time parser ポリシーを使用して「yyyyMMdd」形式の日付を解析する際の CSV および JSON データソースの問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月10日
-
テーブルアクセスコントロールを持つ Delta テーブルでは、
INSERT
やMERGE
などの DML ステートメントによる自動スキーマ進化を、そのようなテーブルに対するMODIFY
権限を持つすべてのユーザーが利用できるようになりました。 さらに、COPY INTO
を使用してスキーマの進化を実行するために必要なアクセス許可が、他のコマンドとの一貫性を保つためにOWNER
からMODIFY
に下げられました。 これらの変更により、テーブル ACL セキュリティ モデルは、Unity Catalog セキュリティ モデルや、テーブルの置換などの他の操作との一貫性が向上します。 -
【スパーク-39889】 除算のエラーメッセージを0で強化
-
[SPARK-39795] [SQL] 新しいSQL関数:try_to_timestamp
-
【スパーク-39749】 ANSIモードで10進数を文字列としてキャストする場合は、常にプレーンな文字列表現を使用します
-
【スパーク-39625】 df.as の名前を df.to に変更
-
[SPARK-39787] [SQL] 関数 to_timestamp の解析エラーでエラークラスを使用
-
[SPARK-39625] [SQL] データセット.as(StructType) を追加
-
[スパーク-39689] CSVデータソースでの2文字
lineSep
をサポート -
[SPARK-39579] [SQL][Python][R] Make ListFunctions/getFunction/functionExists 3レイヤー名前空間と互換性がある
-
[SPARK-39702] [CORE] 共有のbyteRawChannelを使用してTransportCipher$EncryptedMessageのメモリオーバーヘッドを削減
-
[SPARK-39575] [AVRO] AvroDeserializerでByteBuffer#getの後にByteBuffer#rewindを追加
-
[SPARK-39265] [SQL] SPARK_ANSI_SQL_MODEが有効になっている場合のテスト失敗を修正
-
[SPARK-39441] [SQL] DeduplicateRelationsを高速化
-
[SPARK-39497] [SQL] マップキー列が欠落している分析例外を改善
-
[SPARK-39476] [SQL] LongからFloat/DoubleまたはIntegerからFloatにキャストするときにUnwrapキャスト最適化を無効にする
-
[SPARK-39434] [SQL] 配列インデックスが境界外の場合にランタイムエラークエリコンテキストを提供
-
Databricks Runtime 11.0 (EoS)
「Databricks Runtime 11.0 (EoS)」を参照してください。
-
2022年11月29日
-
ユーザーは、Redshift コネクタを使用してデータを書き込む際の先頭と末尾の空白の動作を構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に値から先頭の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。csvignoretrailingwhitespace
をtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中の値から末尾の空白を削除します。 設定がfalse
に設定されている場合、空白は保持されます。 デフォルトでは、値はtrue
です。
-
すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないかfalse
に設定されている場合)、JSONにネストされたオブジェクトが含まれている場合の Auto Loader での JSON 解析のバグを修正しました。 -
[SPARK-39650][SS] 下位互換性のあるストリーミング重複排除の誤った値スキーマを修正
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2022年11月15日
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 このフラグは、元の動作を保持するためにデフォルトで無効になっています。
- 【スパーク-40646】 構造体、マップ、配列の JSON 解析が修正されたため、レコードの一部がスキーマと一致しない場合でも、レコードの残りの部分は null を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
-
2022年11月1日
- Apache commons-text を 1.10.0 に更新しました。
- Deltaテーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード が無効になっている場合、MERGE
の実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 allowOverwrites
が有効になっているときにファイルを同じマイクロバッチで複製できる Auto Loader の問題を修正しました- [SPARK-40697][SQL] 外部データファイルをカバーするために、読み取り側のcharパディングを追加
- [SPARK-40596][CORE] ExecutorDecommissionInfoにメッセージを追加
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月18日
- [SPARK-40213][SQL] Latin-1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", を設定できる) "true") を使用して、ADLS Gen2 で Auto Loader のネイティブ リストを再度有効にします。 ネイティブ リストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 および 9.1 にロールアウトされました。
- 【スパーク-40169】 データ スキーマへの参照なしで Parquet フィルターをプッシュダウンしないでください
- [SPARK-40460][SS] 選択時のストリーミング メトリクスを修正
_metadata
- [SPARK-40468][SQL] _corrupt_recordが選択されている場合のCSVの列のプルーニングを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- [SPARK-40315][SQL] ArrayBasedMapDataのリテラルにhashCode()を追加
- [SPARK-40380][SQL] InvokeLikeの定数フォールディングを修正し、プランに埋め込まれたシリアル化不可能なリテラルを回避する
- [SPARK-40089][SQL] 一部のDecimal型のソートを修正
- [SPARK-39887][SQL] RemoveRedundantAliasesは、プロジェクションノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] codegen split_partコンパイルの問題を修正
-
2022年9月6日
- [SPARK-40235][CORE] エグゼキューター.updateDependencies()で同期の代わりに割り込みロックを使用
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETSはグループ化列を保持する必要があります
- [SPARK-39976][SQL] ArrayIntersect は左の式で null を正しく処理する必要があります
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセルケースに
assume
を追加 - [SPARK-35542][CORE][ML] 修正: パラメーターsplitsArray、inputColls、outputColsを持つ複数の列に対して作成されたBucketizerを、保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対するImputer inputCols検証を追加
-
2022年8月24日
- [SPARK-39983][CORE][SQL] ドライバーのシリアル化されていないブロードキャスト関係をキャッシュしない
- [SPARK-39775][CORE][AVRO] Avroスキーマの解析時にデフォルト値の検証を無効にする
- [スパーク-39806] パーティション分割されたテーブルで METADATA struct にアクセスするクエリがクラッシュする問題を修正しました
- [SPARK-39867][SQL] グローバル制限がOrderPreservingUnaryNodeを継承すべきではない
- [SPARK-39962][Python][SQL] グループ属性が空の場合に投影を適用する
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月9日
- [SPARK-39713][SQL] ANSIモード:INVALID_ARRAY_INDEXエラーにtry_element_atを使用する提案を追加
- 【スパーク-39847】 呼び出し元のスレッドが中断された場合のRocksDBLoader.loadLibrary()の競合状態を修正
- [SPARK-39731][SQL] CORRECTED time parser ポリシーを使用して「yyyyMMdd」形式の日付を解析する際の CSV および JSON データソースの問題を修正
- 【スパーク-39889】 除算のエラーメッセージを0で強化
- [SPARK-39795][SQL]新しいSQL関数:try_to_timestamp
- 【スパーク-39749】 ANSIモードで10進数を文字列としてキャストする場合は、常にプレーンな文字列表現を使用します
- [SPARK-39625][SQL] データセット.to(StructType)を追加
- [SPARK-39787][SQL] 関数to_timestampの解析エラーでエラークラスを使用
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- [スパーク-39689]CSVデータソースでの2文字
lineSep
をサポート - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoadedはスレッドセーフであるべきです
- [SPARK-39702][CORE] 共有のbyteRawChannelを使用して、TransportCipher$EncryptedMessageのメモリオーバーヘッドを削減
- [SPARK-39575][AVRO] AvroDeserializerでByteBuffer#getの後にByteBuffer#rewindを追加
- [SPARK-39497][SQL] マップキー列の欠落による分析例外を改善
- [SPARK-39441][SQL] 重複排除リレーションを高速化
- [SPARK-39476][SQL] LongからFloat/Double、またはIntegerからFloatへのキャスト時にUnwrapキャスト最適化を無効にする
- [SPARK-39434][SQL] 配列インデックスが境界外の場合にランタイムエラークエリコンテキストを提供
- [SPARK-39570][SQL] インラインテーブルでエイリアスを持つ式を許可するべき
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-39689]CSVデータソースでの2文字
-
2022年7月13日
- ソースが非決定論的である場合に、Delta MERGE 操作の結果を一貫性のあるものにします。
- 非 DBFS パスで実行する場合の cloud_files_state TVF の問題を修正しました。
- Auto Loaderによる の Native Cloud APIs の使用を無効にしました Azureのディレクトリ リストに掲載されます。
- [SPARK-38796][SQL] to_numberおよびtry_to_number関数を更新して、正の数でのPRを許可
- [SPARK-39272][SQL] クエリコンテキストの開始位置を1つ増やします
- [SPARK-39419][SQL] コンパレータがnullを返すときに例外をスローするようにArraySortを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- さまざまなエラー・クラスのエラー・メッセージの改善。
- [SPARK-39451][SQL] ANSIモードで積分へのキャスト間隔をサポート
- [スパーク-39361] Log4J2 の拡張スロー可能変換パターンをデフォルトのログ構成で使用しないでください
- [SPARK-39354][SQL]
Filter
に関連するdataTypeMismatchError
が同時に存在する場合でも、Table or view not found
が表示されるようにする - [SPARK-38675][CORE] BlockInfoManagerのロック解除中の競合を修正
- [SPARK-39392][SQL] try_*関数ヒントのANSIエラーメッセージを絞り込む
- [SPARK-39214][SQL][3.3] CASTに関連するエラーを改善
- [SPARK-37939][SQL] プロパティの解析エラーでエラークラスを使用
- [SPARK-39085][SQL]
INCONSISTENT_BEHAVIOR_CROSS_VERSION
のエラーメッセージをerror-classesに移動します。JSON - [SPARK-39376][SQL] NATURAL/USING JOINからのサブクエリエイリアスのスター展開で重複する列を非表示にする
- [SPARK-39283][CORE] TaskMemoryManagerとUnsafeExternalSorter.SpillableIteratorの間のデッドロックを修正
- [SPARK-39285][SQL] Sparkはファイルの読み取り時にフィールド名をチェックしない
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 10.5 (EoS)
「Databricks Runtime 10.5 (EoS)」を参照してください。
-
2022年11月1日
- Deltaテーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで チェンジデータフィード が無効になっている場合、MERGE
の実行時にその列のデータが誤って NULL 値で入力される問題を修正しました。 - [SPARK-40697][SQL] 外部データファイルをカバーするために、読み取り側のcharパディングを追加
- [SPARK-40596][CORE] ExecutorDecommissionInfoにメッセージを追加
- オペレーティング システムのセキュリティ更新プログラム。
- Deltaテーブルに
-
2022年10月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", を設定できる) "true") を使用して、ADLS Gen2 で Auto Loader のネイティブ リストを再度有効にします。 ネイティブ リストは、パフォーマンスの問題により以前はオフになっていましたが、顧客のストレージ コストの増加につながった可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 および 9.1 にロールアウトされました。
- reload4j は、脆弱性を修正するために 1.2.19 にアップグレードされました。
- [SPARK-40460][SS] 選択時のストリーミング メトリクスを修正
_metadata
- [SPARK-40468][SQL] _corrupt_recordが選択されている場合のCSVの列のプルーニングを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- [SPARK-40315][SQL] ArrayBasedMapDataのリテラルにhashCode()を追加
- [SPARK-40213][SQL] Latin-1 文字の ASCII 値変換をサポート
- [SPARK-40380][SQL] InvokeLikeの定数フォールディングを修正し、プランに埋め込まれたシリアル化不可能なリテラルを回避する
- [SPARK-38404][SQL] ネストされたCTEが外部CTEを参照する場合のCTE解像度を改善
- [SPARK-40089][SQL] 一部のDecimal型のソートを修正
- [SPARK-39887][SQL] RemoveRedundantAliasesは、プロジェクションノードの出力を一意にするエイリアスを保持する必要があります
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月6日
- [SPARK-40235][CORE] エグゼキューター.updateDependencies()で同期の代わりに割り込みロックを使用
- [SPARK-39976][SQL] ArrayIntersect は左の式で null を正しく処理する必要があります
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセルケースに
assume
を追加 - [SPARK-35542][CORE][ML] 修正: パラメーターsplitsArray、inputColls、outputColsを持つ複数の列に対して作成されたBucketizerを、保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対するImputer inputCols検証を追加
-
2022年8月24日
- [SPARK-39983][CORE][SQL] ドライバーのシリアル化されていないブロードキャスト関係をキャッシュしない
- [SPARK-39775][CORE][AVRO] Avroスキーマの解析時にデフォルト値の検証を無効にする
- [スパーク-39806] パーティション分割されたテーブルで METADATA struct にアクセスするクエリがクラッシュする問題を修正しました
- [SPARK-39962][Python][SQL] グループ属性が空の場合に投影を適用する
- [SPARK-37643][SQL] charVarcharAsString が true の場合、char データ型の述語クエリで rpadding ルールをスキップする必要がある
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月9日
- 【スパーク-39847】 呼び出し元のスレッドが中断された場合のRocksDBLoader.loadLibrary()の競合状態を修正
- [SPARK-39731][SQL] CORRECTED time parser ポリシーを使用して「yyyyMMdd」形式の日付を解析する際の CSV および JSON データソースの問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- [SPARK-39625][SQL] データセット.as(StructType)を追加
- [スパーク-39689]CSVデータソースでの2文字
lineSep
をサポート - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoadedはスレッドセーフであるべきです
- [SPARK-39570][SQL] インラインテーブルでエイリアスを持つ式を許可するべき
- [SPARK-39702][CORE] 共有のbyteRawChannelを使用して、TransportCipher$EncryptedMessageのメモリオーバーヘッドを削減
- [SPARK-39575][AVRO] AvroDeserializerでByteBuffer#getの後にByteBuffer#rewindを追加
- [SPARK-39476][SQL] LongからFloat/Double、またはIntegerからFloatへのキャスト時にUnwrapキャスト最適化を無効にする
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月13日
- ソースが非決定論的である場合に、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39355][SQL] UnresolvedAttribute の構築に 1 つの列が引用符で囲まれている
- [SPARK-39548][SQL] CreateView コマンドとウィンドウ句のクエリが間違ったウィンドウ定義にヒットすると、見つからない問題が発生する
- [SPARK-39419][SQL] コンパレータがnullを返すときに例外をスローするようにArraySortを修正
- Auto Loaderによる の Native Cloud APIs の使用を無効にしました Azureのディレクトリ リストに掲載されます。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- [SPARK-39376][SQL] NATURAL/USING JOINからのサブクエリエイリアスのスター展開で重複する列を非表示にする
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年6月15日
- [SPARK-39283][CORE] TaskMemoryManagerとUnsafeExternalSorter.SpillableIteratorの間のデッドロックを修正
- [SPARK-39285][SQL] Sparkはファイルの読み取り時にフィールド名をチェックしない
- [SPARK-34096][SQL] オフセットウィンドウ上のnth_value nullを無視するパフォーマンスを改善
- [SPARK-36718][SQL][FOLLOWUP] CollapseProjectの
isExtractOnly
チェックを修正
-
2022年6月2日
- [SPARK-39166][SQL] WSCGがオフのときに、バイナリ演算のランタイムエラークエリコンテキストを提供
- [SPARK-39093][SQL] 年-月間隔または日-時間間隔を整数で除算する際のcodegenコンパイルエラーを回避
- [SPARK-38990][SQL] date_trunc/trunc形式をバインド参照として評価する際にNullPointerExceptionを回避
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- Auto Loaderで発生する可能性のあるネイティブ メモリ リークを修正します。
- [SPARK-38868][SQL]外部結合の最適化時にフィルター述語から例外を伝播しない
- [SPARK-38796][SQL] 新しい仕様に従って to_number および try_to_number SQL 関数を実装
- [SPARK-38918][SQL] ネストされた列のプルーニングは、現在のリレーションに属さない属性を除外する必要がある
- [SPARK-38929][SQL] ANSIのキャスト失敗のエラーメッセージを改善
- [SPARK-38926][SQL] エラーメッセージの出力タイプをSQLスタイルで
- [SPARK-39084][PySpark] タスク完了時にイテレータを停止するTaskContextを使用してdf.rdd.isEmpty()を修正
- [SPARK-32268][SQL] injectBloomFilterにColumnPruningを追加
- [SPARK-38908] [SQL] 文字列から Number/Date/Timestamp/Boolean へのキャストのランタイムエラーでクエリコンテキストを提供
- [SPARK-39046][SQL] TreeNode.origin の設定が間違っている場合、空のコンテキスト文字列を返すようにしました
- [SPARK-38974][SQL] リスト関数で特定のデータベース名で登録された関数をフィルタリング
- [SPARK-38762][SQL] 10進数オーバーフローエラーでクエリコンテキストを提供
- [SPARK-38931][SS] 第1チェックポイントのキー数が不明なRocksDBFileManagerのルートdfsディレクトリを作成
- [SPARK-38992] [CORE] ShellBasedGroupsMappingProvider で bash -c の使用を避ける
- [SPARK-38716][SQL] マップキーにクエリコンテキストを提供しないエラー
- [SPARK-38889][SQL] MSSQL データソースのビットタイプを使用するようにブール列フィルターをコンパイル
- [SPARK-38698][SQL] Divide/Div/Reminder/Pmodのランタイムエラーでクエリコンテキストを提供
- [SPARK-38823][SQL]
NewInstance
を折りたたみ不可にして、集約バッファの破損の問題を修正 - [SPARK-38809][SS] ストリームストリーム結合の対称ハッシュ実装でnull値をスキップするオプションを実装
- [SPARK-38676][SQL] 加算/減算/乗算のランタイムエラーメッセージでSQLクエリコンテキストを提供
- [SPARK-38677][PySpark] Python MonitorThread がブロッキング I/O によるデッドロックを検出すべき
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 10.3 (EoS)
「Databricks Runtime 10.3 (EoS)」を参照してください。
-
2022年7月27日
- [スパーク-39689]CSVデータソースでの2文字
lineSep
をサポート - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoadedはスレッドセーフであるべきです
- [SPARK-39702][CORE] 共有のbyteRawChannelを使用して、TransportCipher$EncryptedMessageのメモリオーバーヘッドを削減
- オペレーティング システムのセキュリティ更新プログラム。
- [スパーク-39689]CSVデータソースでの2文字
-
2022年7月20日
- ソースが非決定論的である場合に、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39476][SQL] LongからFloat/Double、またはIntegerからFloatへのキャスト時にUnwrapキャスト最適化を無効にする
- [SPARK-39548][SQL] CreateView コマンドとウィンドウ句のクエリが間違ったウィンドウ定義にヒットすると、見つからない問題が発生する
- [SPARK-39419][SQL] コンパレータがnullを返すときに例外をスローするようにArraySortを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- [SPARK-39376][SQL] NATURAL/USING JOINからのサブクエリエイリアスのスター展開で重複する列を非表示にする
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年6月15日
- [SPARK-39283][CORE] TaskMemoryManagerとUnsafeExternalSorter.SpillableIteratorの間のデッドロックを修正
- [SPARK-39285][SQL] Sparkはファイルの読み取り時にフィールド名をチェックしない
- [SPARK-34096][SQL] オフセットウィンドウ上のnth_value nullを無視するパフォーマンスを改善
- [SPARK-36718][SQL][FOLLOWUP] CollapseProjectの
isExtractOnly
チェックを修正
-
2022年6月2日
- [SPARK-38990][SQL] date_trunc/trunc形式をバインド参照として評価する際にNullPointerExceptionを回避
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- Auto Loaderで発生する可能性のあるネイティブ メモリ リークを修正します。
- [SPARK-38918][SQL] ネストされた列のプルーニングは、現在のリレーションに属さない属性を除外する必要がある
- [SPARK-37593][CORE] G1GCとON_HEAPが使用されている場合、デフォルトのページサイズをLONG_ARRAY_OFFSET縮小
- [SPARK-39084][PySpark] タスク完了時にイテレータを停止するTaskContextを使用してdf.rdd.isEmpty()を修正
- [SPARK-32268][SQL] injectBloomFilterにColumnPruningを追加
- [SPARK-38974][SQL] リスト関数で特定のデータベース名で登録された関数をフィルタリング
- [SPARK-38889][SQL] MSSQL データソースのビットタイプを使用するようにブール列フィルターをコンパイル
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月4日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
-
2022年4月19日
- [SPARK-38616][SQL] Catalyst TreeNodeでSQLクエリテキストを追跡する
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月6日
- [SPARK-38631][CORE] Utils.unpackでのtarリング解除にJavaベースの実装を使用
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年3月22日
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、作業ディレクトリは
/databricks/driver
でした。 - [SPARK-38437][SQL] データソースからの日時の寛大なシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可
- [SPARK-38155][SQL] サポートされていない述語を持つ横方向のサブクエリで個別の集計を許可しない
- [SPARK-38325][SQL] ANSIモード:HashJoin.extractKeyExprAt()で発生する可能性のあるランタイムエラーを回避します
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、作業ディレクトリは
-
2022年3月14日
- Delta Lake の空のトランザクションのトランザクション競合検出が改善されました。
- [SPARK-38185][SQL] 集計関数が空の場合のデータが正しくない問題を修正
- [SPARK-38318]データセットビューを置き換える際の[SQL]回帰
- [SPARK-38236][SQL] create/alter テーブルで指定された絶対ファイルパスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出はANSIモードで機能するはずです
- [SPARK-34069][SQL] キルバリアタスクは尊重すべき
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] TimestampNTZとDate/Timestampの間のストア割り当てを許可
-
2022年2月23日
- [SPARK-27442][SQL] Parquetでデータを読み書きするときにチェックフィールド名を削除
Databricks Runtime 10.2 (EoS)
「Databricks Runtime 10.2 (EoS)」を参照してください。
-
2022年6月15日
- [SPARK-39283][CORE] TaskMemoryManagerとUnsafeExternalSorter.SpillableIteratorの間のデッドロックを修正
- [SPARK-39285][SQL] Sparkはファイルの読み取り時にフィールド名をチェックしない
- [SPARK-34096][SQL] オフセットウィンドウ上のnth_value nullを無視するパフォーマンスを改善
-
2022年6月2日
- [SPARK-38918][SQL] ネストされた列のプルーニングは、現在のリレーションに属さない属性を除外する必要がある
- [SPARK-38990][SQL] date_trunc/trunc形式をバインド参照として評価する際にNullPointerExceptionを回避
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- Auto Loaderで発生する可能性のあるネイティブ メモリ リークを修正します。
- [SPARK-39084][PySpark] タスク完了時にイテレータを停止するTaskContextを使用してdf.rdd.isEmpty()を修正
- [SPARK-38889][SQL] MSSQL データソースのビットタイプを使用するようにブール列フィルターをコンパイル
- [SPARK-38931][SS] 第1チェックポイントのキー数が不明なRocksDBFileManagerのルートdfsディレクトリを作成
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月4日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
-
2022年4月19日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年4月6日
- [SPARK-38631][CORE] Utils.unpackでのtarリング解除にJavaベースの実装を使用
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年3月22日
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、作業ディレクトリは
/databricks/driver
でした。 - [SPARK-38437][SQL] データソースからの日時の寛大なシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可
- [SPARK-38155][SQL] サポートされていない述語を持つ横方向のサブクエリで個別の集計を許可しない
- [SPARK-38325][SQL] ANSIモード:HashJoin.extractKeyExprAt()で発生する可能性のあるランタイムエラーを回避します
- High Concurrencyクラスター上のノートブックの現在の作業ディレクトリを、テーブルアクセスコントロールまたはクレデンシャルパススルーが有効になっているユーザーのホームディレクトリに変更しました。 以前は、作業ディレクトリは
-
2022年3月14日
- Delta Lake の空のトランザクションのトランザクション競合検出が改善されました。
- [SPARK-38185][SQL] 集計関数が空の場合のデータが正しくない問題を修正
- [SPARK-38318]データセットビューを置き換える際の[SQL]回帰
- [SPARK-38236][SQL] create/alter テーブルで指定された絶対ファイルパスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出はANSIモードで機能するはずです
- [SPARK-34069][SQL] キルバリアタスクは尊重すべき
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] TimestampNTZとDate/Timestampの間のストア割り当てを許可
-
2022年2月23日
- [SPARK-37577][SQL] ClassCastExceptionを修正:プルーニングを生成するためにArrayTypeをStructTypeにキャストできない
-
2022年2月8日
- [SPARK-27442][SQL] Parquetでデータを読み書きするときにチェックフィールド名を削除する。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- Delta テーブル上の並列トランザクションが、特定のまれな条件下でシリアル化できない順序でコミットされる可能性があるバグを修正しました。
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- SQL ANY_FILE のアクセス許可を必要とせずにソース データを読み込むために、COPY INTO に一時的な資格情報をインライン化するためのサポートが導入されました
- バグ修正とセキュリティの強化。
-
2021年12月20日
- Parquet 列インデックスベースのフィルタリングに関するまれなバグを修正しました。
Databricks Runtime 10.1 (EoS)
「Databricks Runtime 10.1 (EoS)」を参照してください。
-
2022年6月15日
- [SPARK-39283][CORE] TaskMemoryManagerとUnsafeExternalSorter.SpillableIteratorの間のデッドロックを修正
- [SPARK-39285][SQL] Sparkはファイルの読み取り時にフィールド名をチェックしない
- [SPARK-34096][SQL] オフセットウィンドウ上のnth_value nullを無視するパフォーマンスを改善
-
2022年6月2日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- Auto Loaderで発生する可能性のあるネイティブ メモリ リークを修正します。
- [SPARK-39084][PySpark] タスク完了時にイテレータを停止するTaskContextを使用してdf.rdd.isEmpty()を修正
- [SPARK-38889][SQL] MSSQL データソースのビットタイプを使用するようにブール列フィルターをコンパイル
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月19日
- [SPARK-37270][SQL] elseValueが空の場合にCaseWhen分岐に折り畳み可能なプッシュを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月6日
- [SPARK-38631][CORE] Utils.unpackでのtarリング解除にJavaベースの実装を使用
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年3月22日
- [SPARK-38437][SQL] データソースからの日時の寛大なシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可
- [SPARK-38155][SQL] サポートされていない述語を持つ横方向のサブクエリで個別の集計を許可しない
- [SPARK-38325][SQL] ANSIモード:HashJoin.extractKeyExprAt()で発生する可能性のあるランタイムエラーを回避します
-
2022年3月14日
- Delta Lake の空のトランザクションのトランザクション競合検出が改善されました。
- [SPARK-38185][SQL] 集計関数が空の場合のデータが正しくない問題を修正
- [SPARK-38318]データセットビューを置き換える際の[SQL]回帰
- [SPARK-38236][SQL] create/alter テーブルで指定された絶対ファイルパスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出はANSIモードで機能するはずです
- [SPARK-34069][SQL] キルバリアタスクは尊重すべき
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] TimestampNTZとDate/Timestampの間のストア割り当てを許可
-
2022年2月23日
- [SPARK-37577][SQL] ClassCastExceptionを修正:プルーニングを生成するためにArrayTypeをStructTypeにキャストできない
-
2022年2月8日
- [SPARK-27442][SQL] Parquetでデータを読み書きするときにチェックフィールド名を削除する。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- Delta テーブル上の並列トランザクションが、特定のまれな条件下でシリアル化できない順序でコミットされる可能性があるバグを修正しました。
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- SQL ANY_FILE のアクセス許可を必要とせずにソース データを読み込むために、COPY INTO に一時的な資格情報をインライン化するためのサポートが導入されました
- 特定の条件下でのクエリ結果のキャッシュに関するメモリ不足の問題を修正しました。
- ユーザーが現在のカタログをデフォルト以外のカタログに切り替えるときの
USE DATABASE
の問題を修正しました。 - バグ修正とセキュリティの強化。
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年12月20日
- Parquet 列インデックスベースのフィルタリングに関するまれなバグを修正しました。
Databricks Runtime 10.0 (EoS)
「Databricks Runtime 10.0 (EoS)」を参照してください。
-
2022年4月19日
- [SPARK-37270][SQL] elseValueが空の場合にCaseWhen分岐に折り畳み可能なプッシュを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月6日
- [SPARK-38631][CORE] Utils.unpackでのtarリング解除にJavaベースの実装を使用
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年3月22日
- [SPARK-38437][SQL] データソースからの日時の寛大なシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可
- [SPARK-38155][SQL] サポートされていない述語を持つ横方向のサブクエリで個別の集計を許可しない
- [SPARK-38325][SQL] ANSIモード:HashJoin.extractKeyExprAt()で発生する可能性のあるランタイムエラーを回避します
-
2022年3月14日
- Delta Lake の空のトランザクションのトランザクション競合検出が改善されました。
- [SPARK-38185][SQL] 集計関数が空の場合のデータが正しくない問題を修正
- [SPARK-38318]データセットビューを置き換える際の[SQL]回帰
- [SPARK-38236][SQL] create/alter テーブルで指定された絶対ファイルパスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出はANSIモードで機能するはずです
- [SPARK-34069][SQL] キルバリアタスクは尊重すべき
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] TimestampNTZとDate/Timestampの間のストア割り当てを許可
-
2022年2月23日
- [SPARK-37577][SQL] ClassCastExceptionを修正:プルーニングを生成するためにArrayTypeをStructTypeにキャストできない
-
2022年2月8日
- [SPARK-27442][SQL] Parquetでデータを読み書きするときにチェックフィールド名を削除する。
- [SPARK-36905][SQL] 明示的な列名がないハイブビューの読み取りを修正
- [SPARK-37859][SQL] Spark 3.1でJDBCで作成されたSQLテーブルが3.2で読み取れない問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- Delta テーブル上の並列トランザクションが、特定のまれな条件下でシリアル化できない順序でコミットされる可能性があるバグを修正しました。
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- バグ修正とセキュリティの強化。
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年12月20日
- Parquet 列インデックスベースのフィルタリングに関するまれなバグを修正しました。
-
2021年11月9日
- ANSI 動作のきめ細かな制御を可能にするために、追加の構成フラグが導入されました。
-
2021年11月4日
- 構造化ストリーミング ストリームが ArrayIndexOutOfBoundsException で失敗する可能性があったバグを修正しました
java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。- Delta Sharing の Apache Spark コネクタが 0.2.0 にアップグレードされました。
-
2021年11月30日
- タイムスタンプの解析で、コロンのないタイムゾーン文字列が無効と見なされる問題を修正しました。
- 特定の条件下でのクエリ結果のキャッシュに関するメモリ不足の問題を修正しました。
- ユーザーが現在のカタログをデフォルト以外のカタログに切り替えるときの
USE DATABASE
の問題を修正しました。
Databricks Runtime 9.0 (EoS)
「Databricks Runtime 9.0 (EoS)」を参照してください。
-
2022年2月8日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- バグ修正とセキュリティの強化。
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年11月4日
- 構造化ストリーミング ストリームが ArrayIndexOutOfBoundsException で失敗する可能性があったバグを修正しました
java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。- Delta Sharing の Apache Spark コネクタが 0.2.0 にアップグレードされました。
-
2021 年 9 月 22 日
- null から文字列へのキャスト Spark 配列のバグを修正しました
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- Azure Synapse Connector のターゲット テーブル名としてスキーマ名 (
databaseName.schemaName.tableName
形式) のサポートが追加されました。 - Spark SQL のジオメトリおよび地理 JDBC タイプのサポートが追加されました。
- [SPARK-33527][SQL] デコード機能を主流のデータベースと一貫性を保つように拡張しました。
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
- Azure Synapse Connector のターゲット テーブル名としてスキーマ名 (
-
2021年8月25日
- SQL Server ドライバ ライブラリが 9.2.1.jre8 にアップグレードされました。
- Snowflakeコネクタが2.9.0にアップグレードされました。
- エクスペリメントページのベストトライアルノートブックへのリンクが壊れ AutoML を修正しました。
Databricks Runtime 8.4 (EoS)
「Databricks Runtime 8.4 (EoS)」を参照してください。
-
2022年1月19日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年11月4日
- 構造化ストリーミング ストリームが ArrayIndexOutOfBoundsException で失敗する可能性があったバグを修正しました
java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。- Delta Sharing の Apache Spark コネクタが 0.2.0 にアップグレードされました。
-
2021 年 9 月 22 日
- Spark JDBC ドライバーが 2.6.19.1030 にアップグレードされました
- [SPARK-36734][SQL] ORCを1.5.1にアップグレード
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- オペレーティング システムのセキュリティ更新プログラム。
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
- [SPARK-36532][コア][3.1]
-
2021年8月25日
- SQL Server ドライバ ライブラリが 9.2.1.jre8 にアップグレードされました。
- Snowflakeコネクタが2.9.0にアップグレードされました。
- 新しい Parquet プリフェッチ最適化によって発生する資格情報のパススルーのバグを修正し、ファイル アクセス中にユーザーのパススルー資格情報が見つからない場合がある問題を修正しました。
-
2021年 8月 11日
- 古い Databricks Runtime 8.4 を妨げる RocksDB の非互換性の問題を修正します。 これにより、 Auto Loader、
COPY INTO
、およびステートフル ストリーミング アプリケーションの上位互換性が修正されます。 path
オプションなしでAuto Loaderを使用する場合のS3パスのAuto Loaderのバグを修正します。- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- Auto Loaderを使用して、ヘッダーファイルが一致しないCSVファイルを読み取る際のバグを修正します。列名が一致しない場合、列は null で埋められます。 これで、スキーマが指定されている場合、スキーマは同じであると想定され、レスキューされたデータ列が有効になっている場合にのみ列の不一致が保存されます。
- Azure Synapse コネクタに
externalDataSource
という新しいオプションを追加して、PolyBase の読み取りのためのデータベースに対するCONTROL
アクセス許可要件を削除します。
- 古い Databricks Runtime 8.4 を妨げる RocksDB の非互換性の問題を修正します。 これにより、 Auto Loader、
-
2021年7月29日
- [SPARK-36034][ビルド] プッシュダウンフィルターの日時をParquetにリベース
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
connectionProvider
オプションを追加
Databricks Runtime 8.3 (EoS)
「Databricks Runtime 8.3 (EoS)」を参照してください。
-
2022年1月19日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年11月4日
- 構造化ストリーミング ストリームが ArrayIndexOutOfBoundsException で失敗する可能性があったバグを修正しました
java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。
-
2021 年 9 月 22 日
- Spark JDBC ドライバーが 2.6.19.1030 にアップグレードされました
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- オペレーティング システムのセキュリティ更新プログラム。
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成および書き込まれるときに、char/varchar orc テーブルを読み取ります。
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
-
2021年8月25日
- SQL Server ドライバ ライブラリが 9.2.1.jre8 にアップグレードされました。
- Snowflakeコネクタが2.9.0にアップグレードされました。
- 新しい Parquet プリフェッチ最適化によって発生する資格情報のパススルーのバグを修正し、ファイル アクセス中にユーザーのパススルー資格情報が見つからない場合がある問題を修正しました。
-
2021年 8月 11日
- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- Auto Loaderを使用して、ヘッダーファイルが一致しないCSVファイルを読み取る際のバグを修正します。列名が一致しない場合、列は null で埋められます。 これで、スキーマが指定されている場合、スキーマは同じであると想定され、レスキューされたデータ列が有効になっている場合にのみ列の不一致が保存されます。
-
2021年7月29日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレードする
- [SPARK-36034][ビルド] プッシュダウンフィルターの日時をParquetにリベース
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
connectionProvider
オプションを追加
-
2021年7月14日
- Azure Synapse コネクタでドット付きの列名を使用する際の問題を修正しました。
- Synapse コネクタの
database.schema.table
形式が導入されました。 - ターゲットテーブルとして、
schemaName.tableName
やtableName
だけでなく、databaseName.schemaName.tableName
形式を提供するサポートが追加されました。
-
2021年6月15日
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生するときに発生する可能性のある
NoSuchElementException
バグを修正しました - SQL
CREATE GROUP
、DROP GROUP
、ALTER GROUP
、SHOW GROUPS
、およびSHOW USERS
コマンドを追加します。 詳細については、「 セキュリティステートメント 」および 「Show ステートメント」を参照してください。
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生するときに発生する可能性のある
Databricks Runtime 8.2 (EoS)
「Databricks Runtime 8.2 (EoS)」を参照してください。
-
2021 年 9 月 22 日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成および書き込まれるときに、char/varchar orc テーブルを読み取ります。
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
-
2021年8月25日
- Snowflakeコネクタが2.9.0にアップグレードされました。
-
2021年 8月 11日
- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- [SPARK-36034][SQL] プッシュダウンフィルターの日時をParquetにリベースします。
-
2021年7月29日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレードする
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
connectionProvider
オプションを追加
-
2021年7月14日
- Azure Synapse コネクタでドット付きの列名を使用する際の問題を修正しました。
- Synapse コネクタの
database.schema.table
形式が導入されました。 - ターゲットテーブルとして、
schemaName.tableName
やtableName
だけでなく、databaseName.schemaName.tableName
形式を提供するサポートが追加されました。 - ユーザーが Delta テーブルを使用して使用可能な古いバージョンにタイムトラベルできないバグを修正しました。
-
2021年6月15日
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生した場合に発生する可能性のある
NoSuchElementException
バグを修正します
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生した場合に発生する可能性のある
-
2021年6月7日
- AWS Glue Catalog のプッシュダウン述語 (StartsWith、EndsWith、Contains、Not(EqualTo()) および DataType) のリストは、Glue でまだサポートされていないため、無効にします。
-
2021年5月26日
- Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
- Auto Loader が構造化ストリーミングの進行状況メトリクスを報告するときの OOM の問題を修正しました。
Databricks Runtime 8.1 (EoS)
「Databricks Runtime 8.1 (EoS)」を参照してください。
-
2021 年 9 月 22 日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成および書き込まれるときに、char/varchar orc テーブルを読み取ります。
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
-
2021年8月25日
- Snowflakeコネクタが2.9.0にアップグレードされました。
-
2021年 8月 11日
- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- [SPARK-36034][SQL] プッシュダウンフィルターの日時をParquetにリベースします。
-
2021年7月29日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレードする
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
connectionProvider
オプションを追加
-
2021年7月14日
- Azure Synapse コネクタでドット付きの列名を使用する際の問題を修正しました。
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンにタイムトラベルできないバグを修正しました。
-
2021年6月15日
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生した場合に発生する可能性のある
NoSuchElementException
バグを修正します
- Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生した場合に発生する可能性のある
-
2021年6月7日
- AWS Glue Catalog のプッシュダウン述語 (StartsWith、EndsWith、Contains、Not(EqualTo()) および DataType) のリストは、Glue でまだサポートされていないため、無効にします。
-
2021年5月26日
- Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- Auto Loader が構造化ストリーミングの進行状況メトリクスを報告するときの OOM の問題を修正しました。
-
2021年4月27日
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
- [SPARK-34856][SQL] ANSIモード:複合型を文字列型としてキャストすることを許可
- 【スパーク-35014】 折り畳み式を書き換えないように PhysicalAggregation パターンを修正します
- [SPARK-34769][SQL] AnsiTypeCoercion: TypeCollection の中で最も狭い変換可能な型を返す
- [SPARK-34614] [SQL] ANSI モード: 文字列を Boolean にキャストすると、解析エラーで例外がスローされる
- [SPARK-33794][SQL] ANSIモード:NextDay式を修正して、無効な入力を受け取ったときにランタイムIllegalArgumentExceptionをスローするように修正しました。
Databricks Runtime 8.0 (EoS)
「Databricks Runtime 8.0 (EoS)」を参照してください。
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021年8月25日
- Snowflakeコネクタが2.9.0にアップグレードされました。
-
2021年 8月 11日
- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- [SPARK-36034][SQL] プッシュダウンフィルターの日時をParquetにリベースします。
-
2021年7月29日
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
connectionProvider
オプションを追加
- [SPARK-36163][BUILD] JDBCコネクタプロバイダーで正しいJDBCプロパティを伝播し、
-
2021年7月14日
- Azure Synapse コネクタでドット付きの列名を使用する際の問題を修正しました。
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンにタイムトラベルできないバグを修正しました。
-
2021年6月7日
- AWS Glue Catalog のプッシュダウン述語 (StartsWith、EndsWith、Contains、Not(EqualTo()) および DataType) のリストは、Glue でまだサポートされていないため、無効にします。
-
2021年5月26日
- Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
-
2021年3月24日
- [SPARK-34681][SQL] 非等価条件で左側をビルドする際の完全な外部シャッフルハッシュ結合のバグを修正
- [スパーク-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正
- [SPARK-34613][SQL] ビューが無効化ヒント設定をキャプチャしない問題を修正
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- [SPARK-34543][SQL] v1でパーティション仕様を解決する際に
spark.sql.caseSensitive
設定を尊重しますSET LOCATION
- [SPARK-34392][SQL] ZoneOffset +h をサポート DateTimeUtils で。 getZoneId
- [UI]Spark DAG Visualization の href リンクを修正
- [SPARK-34436][SQL] DPPはLIKE ANY/ALL式をサポートします
- [SPARK-34543][SQL] v1でパーティション仕様を解決する際に
Databricks Runtime 7.6 (EoS)
「Databricks Runtime 7.6 (EoS)」を参照してください。
-
2021年 8月 11日
- AWS STS エンドポイントを Kinesis ソースの Amazon Kinesis エンドポイントとして誤って設定するバグを修正します。
- [SPARK-36034][SQL] プッシュダウンフィルターの日時をParquetにリベースします。
-
2021年7月29日
- [SPARK-32998][BUILD] デフォルトのリモートリポジトリを内部リポジトリのみで上書きする機能を追加
-
2021年7月14日
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンにタイムトラベルできないバグを修正しました。
-
2021年5月26日
- Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
-
2021年3月24日
- [SPARK-34768][SQL] Univocityのデフォルトの入力バッファサイズを尊重
- [スパーク-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- (Azure のみ)Auto Loader Databricks Runtime7.6Auto Loader を使用してDatabricks Runtime 7.2 で作成された古い ストリームを実行するときに NullPointerException が発生する可能性がある バグを修正しました
- [UI]Spark DAG Visualization の href リンクを修正
- 不明なリーフ ノード SparkPlan が SizeInBytesOnlyStatsSparkPlanVisitor で正しく処理されません
- の出力スキーマを復元します。
SHOW DATABASES
- [Delta][8.0, 7.6]ファイルサイズの自動調整ロジックの計算バグを修正しました
- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効にする
- [SQL]範囲結合ヒントが存在する場合は、正しい動的プルーニング ビルド キーを使用します
- 非SQLコードパスでのchar型のサポートを無効にする
- DataFrameReader.schema で NPE を避ける
- EventGridClient 応答にエンティティがない場合の NPE を修正
- Azure Auto Loader のクローズド ストリームの読み取りバグを修正する
- [SQL]AOS が有効な場合、シャッフルパーティション番号のアドバイスを生成しない
-
2021年2月24日
- Spark BigQuery コネクタを v0.18 にアップグレードし、さまざまなバグ修正と Arrow および Avro イテレータのサポートを導入しました。
- Parquet ファイルの小数点以下の精度と小数点以下桁数が Spark スキーマと異なる場合に Spark が誤った結果を返す原因となっていた正確性の問題を修正しました。
- Spark SQL のジオメトリおよび地理 JDBC タイプのサポートを追加することで、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正しました。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。 - 【スパーク-34212】 Parquet ファイルからの 10 進データの読み取りに関連する問題を修正しました。
- [SPARK-34260][SQL] 一時ビューを2回作成する際のUnresolvedExceptionを修正。
Databricks Runtime 7.5 (EoS)
「Databricks Runtime 7.5 (EoS)」を参照してください。
-
2021年5月26日
- Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
-
2021年3月24日
- [SPARK-34768][SQL] Univocityのデフォルトの入力バッファサイズを尊重
- [スパーク-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- (Azure のみ)Auto Loader Databricks Runtime7.5Auto Loader を使用してDatabricks Runtime 7.2 で作成された古い ストリームを実行するときに NullPointerException が発生する可能性がある バグを修正しました。
- [UI]Spark DAG Visualization の href リンクを修正
- 不明なリーフ ノード SparkPlan が SizeInBytesOnlyStatsSparkPlanVisitor で正しく処理されません
- の出力スキーマを復元します。
SHOW DATABASES
- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効にする
- [SQL]範囲結合ヒントが存在する場合は、正しい動的プルーニング ビルド キーを使用します
- 非SQLコードパスでのchar型のサポートを無効にする
- DataFrameReader.schema で NPE を避ける
- EventGridClient 応答にエンティティがない場合の NPE を修正
- Azure Auto Loader のクローズド ストリームの読み取りバグを修正する
-
2021年2月24日
- Spark BigQuery コネクタを v0.18 にアップグレードし、さまざまなバグ修正と Arrow および Avro イテレータのサポートを導入しました。
- Parquet ファイルの小数点以下の精度と小数点以下桁数が Spark スキーマと異なる場合に Spark が誤った結果を返す原因となっていた正確性の問題を修正しました。
- Spark SQL のジオメトリおよび地理 JDBC タイプのサポートを追加することで、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正しました。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。 - 【スパーク-34212】 Parquet ファイルからの 10 進データの読み取りに関連する問題を修正しました。
- [SPARK-34260][SQL] 一時ビューを2回作成する際のUnresolvedExceptionを修正。
-
2021年2月4日
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
SELECT * FROM table LIMIT nrows
など)。 このリグレッションは、Arrow シリアル化が有効になっている ODBC/JDBC 経由でクエリを実行しているユーザーで発生しました。 - Hiveテーブルの のメタデータの破損を防ぐために、Hive metastore Deltaクライアントに書き込み時間チェックを導入しました。
- クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- Azure Storage SDK を 2.3.8 から 2.3.9 にアップグレードします。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33480][SQL]がchar/varcharテーブルの挿入長チェックのエラーメッセージを更新
Databricks Runtime 7.3 LTS (EoS)
「Databricks Runtime 7.3 LTS (EoS)」を参照してください。
-
2023年9月10日
- その他のバグ修正。
-
2023年8月30日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年8月15日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月23日
- Snowflake-JDBC ライブラリは、セキュリティの問題に対処するために 3.13.29 にアップグレードされました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年6月15日
- [SPARK-43413][SQL] サブクエリ
IN``ListQuery
nullabilityを修正。 - オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-43413][SQL] サブクエリ
-
2023年6月2日
- Auto Loader で、指定されたスキーマに推論されたパーティションが含まれていない場合に、異なるソース ファイル形式に一貫性がない問題を修正しました。この問題により、推論されたパーティション スキーマで列が欠落しているファイルを読み取るときに、予期しないエラーが発生する可能性があります。
-
2023年5月17日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月25日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月11日
- [SPARK-42967][CORE] ステージがキャンセルされた後にタスクが開始されたときのSparkListenerTaskStart.stageAttemptIdを修正。
- その他のバグ修正。
-
2023年3月29日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年3月14日
- その他のバグ修正。
-
2023年2月28日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月16日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月31日
- JDBC テーブルのテーブル・タイプがデフォルトで EXTERNAL になりました。
-
2023年1月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月29日
- その他のバグ修正。
-
2022年11月15日
- Apache commons-text を 1.10.0 に更新しました。
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年11月1日
- [SPARK-38542][SQL] UnsafeHashedRelationはnumKeysをシリアル化する必要があります
-
2022年10月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- その他のバグ修正。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年9月22日
- [SPARK-40089][SQL] 一部のDecimal型のソートを修正
-
2022年9月6日
- [SPARK-35542][CORE][ML] 修正: パラメーターsplitsArray、inputColls、outputColsを持つ複数の列に対して作成されたBucketizerを、保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対するImputer inputCols検証を追加
-
2022年8月24日
- [SPARK-39962][Python][SQL] グループ属性が空の場合に投影を適用する
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月9日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- ソースが非決定論的である場合に、Delta MERGE 操作の結果を一貫性のあるものにします。
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年7月13日
- [SPARK-32680][SQL] 未解決のクエリでV2 CTASを前処理しない
- Auto Loaderによる の Native Cloud APIs の使用を無効にしました Azureのディレクトリ リストに掲載されます。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年6月2日
- [SPARK-38918][SQL] ネストされた列のプルーニングは、現在のリレーションに属さない属性を除外する必要がある
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- AWS SDK バージョンを 1.11.655 から 1.11.678 にアップグレードします。
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年4月19日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年4月6日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年3月14日
- log4j 1.2.17 jar から脆弱なクラスを削除する
- その他のバグ修正。
-
2022年2月23日
- [SPARK-37859][SQL] スキーマ比較中にメタデータをチェックしない
-
2022年2月8日
- Ubuntu JDK を 1.8.0.312 にアップグレードします。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- Conda デフォルト チャンネルは 7.3 から削除されました ML LTS
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年12月7日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年11月4日
- 構造化ストリーミング ストリームが ArrayIndexOutOfBoundsException で失敗する可能性があったバグを修正しました
java.io.IOException: No FileSystem for scheme
のような IOException でクエリが失敗する可能性がある競合状態、またはsparkContext.hadoopConfiguration
への変更がクエリで有効にならない可能性がある競合状態を修正しました。
-
2021年9月15日
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
- オペレーティング システムのセキュリティ更新プログラム。
- IOException のようなクエリの失敗を引き起こす可能性のある競合状態を修正
-
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成および書き込まれるときに、char/varchar orc テーブルを読み取ります。
- [SPARK-36532][コア][3.1]
CoarseGrainedExecutorBackend.onDisconnected
のデッドロックを修正して、エグゼキューターのシャットダウンハングを防ぐためのexecutorsconnected
を回避しました。
-
2021年8月25日
- Snowflakeコネクタが2.9.0にアップグレードされました。
-
2021年7月29日
- [SPARK-36034][ビルド] プッシュダウンフィルターの日時をParquetにリベース
- [SPARK-34508][ビルド]ネットワークがダウンしている場合は
HiveExternalCatalogVersionsSuite
をスキップします
-
2021年7月14日
- Azure Synapse コネクタの
database.schema.table
形式が導入されました。 - ターゲットテーブルとして、
schemaName.tableName
やtableName
だけでなく、databaseName.schemaName.tableName
形式を提供するサポートが追加されました。 - ユーザーが Delta テーブルを使用して使用可能な古いバージョンにタイムトラベルできないバグを修正しました。
- Azure Synapse コネクタの
-
2021年6月15日
-
Delta Lake の最適化書き込みで、大量のデータを書き込んでエグゼキューターの損失が発生した場合に発生する可能性のある
NoSuchElementException
バグを修正します -
Pythonのセキュリティ脆弱性(CVE-2021-3177)を修正するために、Pythonをセキュリティパッチで更新しました。
-
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
- [SPARK-35045][SQL] ユニボシティで入力バッファを制御する内部オプションを追加
-
2021年3月24日
- [SPARK-34768][SQL] Univocityのデフォルトの入力バッファサイズを尊重
- [スパーク-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正
- [SPARK-33118][SQL]CREATE TEMPORARY TABLEが場所で失敗する
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- 用の更新されたAzure Blob File System ドライバーが DefaultAzure Data Lake Storage Gen2 によって有効になりました。これにより、複数の安定性が向上しています。
- Windowsのパスセパレータを修正
databricks-connect get-jar-dir
- [UI]Spark DAG Visualization の href リンクを修正
- [DBCONNECT接続]Databricks Connect 7.3 に FlatMapCoGroupsInPandas のサポートを追加
- の出力スキーマを復元します。
SHOW DATABASES
- [SQL]範囲結合ヒントが存在する場合は、正しい動的プルーニング ビルド キーを使用します
- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効にする
- [SQL]AOS が有効な場合、シャッフル パーティション番号のアドバイスを生成しません
-
2021年2月24日
- Spark BigQuery コネクタを v0.18 にアップグレードし、さまざまなバグ修正と Arrow および Avro イテレータのサポートを導入しました。
- Parquet ファイルの小数点以下の精度と小数点以下桁数が Spark スキーマと異なる場合に Spark が誤った結果を返す原因となっていた正確性の問題を修正しました。
- Spark SQL のジオメトリおよび地理 JDBC タイプのサポートを追加することで、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正しました。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。 - 【スパーク-34212】 Parquet ファイルからの 10 進データの読み取りに関連する問題を修正しました。
- [SPARK-33579][UI] プロキシの背後にあるエグゼキューターの空白ページを修正。
- [SPARK-20044][UI] パスプレフィックスを使用してフロントエンドリバースプロキシの背後でSpark UIをサポートします。
- [SPARK-33277] [PySpark][SQL] ContextAwareIterator を使用して、タスクの終了後に消費を停止します。
-
2021年2月4日
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
SELECT * FROM table LIMIT nrows
など)。 このリグレッションは、Arrow シリアル化が有効になっている ODBC/JDBC 経由でクエリを実行しているユーザーで発生しました。 - クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33677][SQL] パターンにescapeCharが含まれている場合、LikeSimplificationルールをスキップ
- [SPARK-33592] [ML][Python] estimatorParamMaps の PySpark ML Validator パラメータが保存および再読み込み後に失われる場合がある
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoinを壊さないように、join()でLogicalPlanのデータセットを変更しないようにします
-
2020年12月8日
- [SPARK-33587][CORE] ネストされた致命的なエラーでエグゼキューターを強制終了
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- [SPARK-33316][SQL] サポートユーザーが、Avroライティングのnull非null許容触媒スキーマに対してnull許容Avroスキーマを提供しました
- Databricks Connect を使用して起動された Spark ジョブが、エグゼキューター スタック トレースの
Executor$TaskRunner.$anonfun$copySessionState
で無期限にハングすることがありました - オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33404][SQL][3.0]
date_trunc
式の誤った結果を修正 - [SPARK-33339][Python] PySpark アプリケーションが非例外エラーによりハングアップする
- [SPARK-33183][SQL][HOTFIX] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [SPARK-33371] [Python][3.0] Python 3.9 の setup.py とテストの更新
- [SPARK-33391][SQL] CreateArray のelement_at 1 つのベースのインデックスを考慮しない。
- [SPARK-33306][SQL]日付を文字列にキャストする場合はタイムゾーンが必要です
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
- [SPARK-33404][SQL][3.0]
-
2020年11月5日
UserGroupInformation.getCurrentUser()
に関するABFSおよびWASBのロックを修正します。- Avro リーダーが MAGIC バイトを読み取る際の無限ループのバグを修正しました。
USAGE
権限のサポートを追加します。- テーブルアクセスコントロールでの権限チェックのパフォーマンスが向上しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- credential passthrough enabled DBFSクラスターでは、/dbfs/ の FUSE マウントを使用して から読み取りと書き込みを行うことができます。high concurrency通常のマウントはサポートされていますが、パススルー資格情報が必要なマウントはまだサポートされていません。
- [SPARK-32999][SQL] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- [SPARK-32585][SQL] ScalaReflectionでの Scala 列挙のサポート
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月29日
- [SPARK-32718][SQL] 間隔単位の不要なキーワードを削除
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
- 新しい設定
spark.shuffle.io.decoder.consolidateThreshold
を追加します。 設定値をLong.MAX_VALUE
に設定すると、netty FrameBuffers の統合がスキップされ、コーナーケースでのjava.lang.IndexOutOfBoundsException
が防止されます。
-
2023年4月25日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年4月11日
- その他のバグ修正。
-
2023年3月29日
- その他のバグ修正。
-
2023年3月14日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月28日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年2月16日
- オペレーティング システムのセキュリティ更新プログラム。
-
2023年1月31日
- その他のバグ修正。
-
2023年1月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月29日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年11月15日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年11月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月18日
-
オペレーティング システムのセキュリティ更新プログラム。
-
2022年10月5日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月24日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年8月9日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月27日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年7月5日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年6月2日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月19日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年4月6日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年3月14日
- その他のバグ修正。
-
2022年2月23日
- その他のバグ修正。
-
2022年2月8日
- Ubuntu JDK を 1.8.0.312 にアップグレードします。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月19日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021 年 9 月 22 日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年12月8日
-
[SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
-
オペレーティング システムのセキュリティ更新プログラム。
-
-
2020年11月20日
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
-
Databricks Runtime 6.4 延長サポート (EoS)
「Databricks Runtime 6.4 (EoS)」および「Databricks Runtime 6.4 延長サポート (EoS)」を参照してください。
-
2022年7月5日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年6月2日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年5月18日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年4月19日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年4月6日
- オペレーティング システムのセキュリティ更新プログラム。
- その他のバグ修正。
-
2022年3月14日
- log4j 1.2.17 jar から脆弱なクラスを削除する
- その他のバグ修正。
-
2022年2月23日
- その他のバグ修正。
-
2022年2月8日
- Ubuntu JDK を 1.8.0.312 にアップグレードします。
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年2月1日
- オペレーティング システムのセキュリティ更新プログラム。
-
2022年1月26日
- ANSI SQL ダイアレクトが有効になっているときに OPTIMIZE コマンドが失敗する可能性があるバグを修正しました。
-
2022年1月19日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年12月8日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021 年 9 月 22 日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年6月15日
- [SPARK-35576][SQL] Setコマンドの結果の機密情報を墨消しする
-
2021年6月7日
- オプションの追加のリモート Maven ミラーのコンマ区切り文字列 config である
spark.sql.maven.additionalRemoteRepositories
という新しい設定を追加します。 値のデフォルトはhttps://maven-central.storage-download.googleapis.com/maven2/
です。
- オプションの追加のリモート Maven ミラーのコンマ区切り文字列 config である
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
-
2021年4月6日
- 接続のリセットの問題を解決するために S3 クライアントに追加された再試行を修正しました。
-
2021年3月24日
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- HADOOP-17215 を Azure Blob File System ドライバーに移植します (条件付き上書きのサポート)。
- Windowsのパスセパレータを修正
databricks-connect get-jar-dir
- Hive metastore バージョン 2.3.5、2.3.6、および 2.3.7 のサポートが追加されました
- スピル後に矢印「totalResultsCollected」が正しく報告されない
-
2021年2月24日
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。
- 新しい構成
-
2021年2月4日
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
SELECT * FROM table LIMIT nrows
など)。 このリグレッションは、Arrow シリアル化が有効になっている ODBC/JDBC 経由でクエリを実行しているユーザーで発生しました。 - クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年12月8日
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- [SPARK-33183][SQL] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [Runtime 6.4 ML GPU]以前に誤ったバージョンのNCCLをインストールしました(2.7.8-1 + cuda11.1)。 このリリースでは、2.4.8-1+cuda10.0 に修正されています CUDA 10.0 と互換性があります。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL][2.4] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月24日
- 標準クラスターでのパススルーが、ユーザーが使用するファイルシステムの実装を引き続き制限するという以前の制限を修正しました。 これで、ユーザーは制限なくローカルファイルシステムにアクセスできるようになります。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。 - Azure Storage SDK を 8.6.4 に更新し、WASB ドライバーによる接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月25日
- 自己マージでのあいまいな属性解決を修正しました
-
2020年8月18日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- [SPARK-28676][CORE] ContextCleanerからの過剰なログ記録を回避
-
2020年8月3日
- LDA 変換関数をパススルー対応クラスターで使用できるようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年7月7日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレードしました。
-
2020年4月21日
- [SPARK-31312][SQL] HiveFunctionWrapperのUDFインスタンスのキャッシュクラスインスタンス
-
2020年4月7日
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加しました。 [SPARK-29367]の手順を参照してください。
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
-
2020年3月10日
- Optimized オートスケールは、Security プランの interactive クラスターでデフォルトで使用されるようになりました。
- Databricks Runtime に含まれる Snowflake コネクタ (
spark-snowflake_2.11
) がバージョン 2.5.9 に更新されました。snowflake-jdbc
がバージョン 3.12.0 に更新されました。
Databricks Runtime 5.5 LTS (EoS)
「Databricks Runtime 5.5 LTS (EoS)」および「Databricks Runtime 5.5 延長サポート (EoS)」を参照してください。
-
2021年12月8日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021 年 9 月 22 日
- オペレーティング システムのセキュリティ更新プログラム。
-
2021年8月25日
- 以前にアップグレードされた一部の Python パッケージを 5.5 ML 延長サポートリリースでダウングレードし、5.5 ML LTS (現在は非推奨) との同等性を向上させました。 [_]/リリースノート/ランタイム/5.5xml.md を参照) 2 つのバージョン間の更新された相違点について説明します。
-
2021年6月15日
- [SPARK-35576][SQL] Setコマンドの結果の機密情報を墨消しする
-
2021年6月7日
- オプションの追加のリモート Maven ミラーのコンマ区切り文字列 config である
spark.sql.maven.additionalRemoteRepositories
という新しい設定を追加します。 値のデフォルトはhttps://maven-central.storage-download.googleapis.com/maven2/
です。
- オプションの追加のリモート Maven ミラーのコンマ区切り文字列 config である
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
-
2021年4月6日
- 接続のリセットの問題を解決するために S3 クライアントに追加された再試行を修正しました。
-
2021年3月24日
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- HADOOP-17215 を Azure Blob File System ドライバーに移植します (条件付き上書きのサポート)。
-
2021年2月24日
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。
- 新しい構成
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [HADOOP-17130]の修正。
-
2020年12月8日
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
-
2020年10月29日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL][2.4] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
-
2020年9月24日
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月18日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- [SPARK-28676][CORE] ContextCleanerからの過剰なログ記録を回避
-
2020年8月3日
- オペレーティング システムのセキュリティ更新プログラム
-
2020年7月7日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレードしました。
-
2020年4月21日
- [SPARK-31312][SQL] HiveFunctionWrapperのUDFインスタンスのキャッシュクラスインスタンス
-
2020年4月7日
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加しました。 [SPARK-29367]の手順を参照してください。
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
-
2020年3月25日
- Databricks Runtime に含まれる Snowflake コネクタ (
spark-snowflake_2.11
) がバージョン 2.5.9 に更新されました。snowflake-jdbc
がバージョン 3.12.0 に更新されました。
- Databricks Runtime に含まれる Snowflake コネクタ (
-
2020年3月10日
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
spark.databricks.driver.disableScalaOutput
Spark 設定をtrue
に設定することで、ドライバーから stdout が返されるのを防ぐことができます。 デフォルトでは、フラグ値はfalse
です。 このフラグは、Scala JAR ジョブと Scala ノートブックのセル出力を制御します。 フラグが有効になっている場合、Spark はジョブの実行結果をクライアントに返しません。 このフラグは、クラスターのログ・ファイルに書き込まれるデータには影響しません。 このフラグを設定すると、ノートブックの結果が無効になるため、 JAR ジョブの自動クラスターの場合にのみお勧めします。
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
-
2020年2月18日
- [SPARK-24783] [SQL] spark.sql.shuffle.partitions=0 例外をスローする必要があります
- ADLS Gen2 での資格情報のパススルーでは、ADLS クライアントのプリフェッチが有効になっている場合にスレッド ローカル処理が正しくないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合、ADLS Gen2 のプリフェッチが無効になります。
-
2020年1月28日
-
S3AFileSystem で、
fs.isDirectory(path)
やfs.getFileStatus(path).isDirectory()
が誤ってfalse
を返すことがあるバグを修正しました。 このバグは、aws s3 list-objects-v2 --prefix path/ --max-keys 1 --delimiter /
がキーや共通のプレフィックスなしで応答するパスで発生しますがisTruncated = true
、. これは、多くのオブジェクトが削除され、バージョン管理が有効になっているディレクトリで発生する可能性があります。 -
[SPARK-30447][SQL] 定数伝播の null 可能性の問題。
-
-
2020年1月14日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレードしました。
-
2019年11月19日
- [SPARK-29743] [SQL] サンプルは、子の needCopyResult が true の場合、needCopyResult を true に設定する必要があります
- Rバージョンが意図せずに3.6.0から3.6.1にアップグレードされました。 3.6.0 にダウングレードしました。
-
2019年11月5日
- Java バージョンを 1.8.0_212 から 1.8.0_222 にアップグレードしました。
-
2019年10月23日
- [SPARK-29244][CORE] BytesToBytesMapの解放されたページが再び解放されないようにします
-
2019年10月8日
- Simba Apache Spark ODBC ドライバーが、結果のフェッチ中に接続エラーの後に再接続して続行できるようにするためのサーバー側の変更 ( Simba Apache Spark ODBC ドライバー バージョン 2.6.10 が必要)。
- テーブル ACL が有効なクラスターで
Optimize
コマンドを使用する際に影響する問題を修正しました。 - クラスターが有効になっているScala UDFACLテーブルで禁止されているエラーが原因でライブラリ
pyspark.ml
が失敗する問題を修正しました。 - WASB クライアントでエラー・コードを確認する際の NullPointerException を修正しました。
-
2019 年 9 月 24 日
- Parquet Writer の安定性が向上しました。
- Thriftクエリの実行開始前にキャンセルされたが、STARTED状態でスタックする可能性がある問題を修正しました。
-
2019年9月10日
- スレッド セーフなイテレータを BytesToBytesMap に追加する
- [SPARK-27992][スパーク-28881]Python が接続スレッドと結合してエラーを伝播することを許可する
- 特定のグローバル集計クエリに影響するバグを修正しました。
- 資格情報の編集が改善されました。
- [SPARK-27330][SS] foreachライターでサポートタスクが中止される
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] 再パーティションの場合、ShuffleExchangeExecの基数ソートの使用を無効にする
-
2019年8月27日
- [SPARK-20906][SQL]スキーマレジストリを使用してAPI to_avro でユーザー指定のスキーマを許可する
- [SPARK-27838][SQL] サポートユーザーが、nullレコードのないnullablecatalystスキーマに対してnull非nullableavroスキーマを提供
- Delta Lake タイムトラベルの改善
- 特定の
transform
式に影響する問題を修正しました - プロセス分離が有効な場合のブロードキャスト変数をサポート
-
2019年8月13日
- Delta ストリーミング ソース は、テーブルの最新のプロトコルを確認する必要があります
- 【スパーク-28260】ExecutionState に CLOSED 状態を追加する
- [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRangesがオフセットをドロップする可能性があるバグを修正
-
2019年7月30日
- [SPARK-28015][SQL] stringToDate()がyyyyおよびyyyy-[m]m形式の入力全体を消費します
- [SPARK-28308][CORE] CalendarIntervalのサブセカンド部分を解析前に埋め込む必要がある
- [スパーク-27485]EnsureRequirements.reorder は、重複する式を適切に処理する必要があります
- [SPARK-28355][CORE][] PythonSparkブロードキャストによってUDF が圧縮されるしきい値に confを使用
Databricks Light 2.4 延長サポート
「Databricks Light 2.4 (EoS)」および「Databricks Light 2.4 延長サポート (EoS)」を参照してください。
Databricks Runtime 7.4 (EoS)
「Databricks Runtime 7.4 (EoS)」を参照してください。
-
2021年4月30日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-35227][ビルド] SparkSubmitのspark-packagesのリゾルバーを更新
- [SPARK-34245][CORE] マスターが完了状態の送信に失敗したエグゼキューターを削除するようにする問題を修正
- [SPARK-35045][SQL] univocityで入力バッファを制御する内部オプションとCSV入力バッファサイズの設定を追加
-
2021年3月24日
- [SPARK-34768][SQL] Univocityのデフォルトの入力バッファサイズを尊重
- [スパーク-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockId の順序を修正
- ディスクキャッシングは、i3enインスタンスではデフォルトで有効になっています。
-
2021年3月9日
- 用の更新されたAzure Blob File System ドライバーが DefaultAzure Data Lake Storage Gen2 によって有効になりました。これにより、複数の安定性が向上しています。
- 【ES-67926】[UI]Spark DAG Visualization の href リンクを修正
- 【ES-65064】の出力スキーマを復元します。
SHOW DATABASES
- [SC-70522][SQL]範囲結合ヒントが存在する場合は、正しい動的プルーニング ビルド キーを使用します
- 【SC-35081】ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効にする
- [SC-70640]EventGridClient 応答にエンティティがない場合の NPE を修正
- 【SC-70220】[SQL]AOS が有効な場合、シャッフルパーティション番号のアドバイスを生成しない
-
2021年2月24日
- Spark BigQuery コネクタを v0.18 にアップグレードし、さまざまなバグ修正と Arrow および Avro イテレータのサポートを導入しました。
- Parquet ファイルの小数点以下の精度と小数点以下桁数が Spark スキーマと異なる場合に Spark が誤った結果を返す原因となっていた正確性の問題を修正しました。
- Spark SQL のジオメトリおよび地理 JDBC タイプのサポートを追加することで、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正しました。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入しました。 この設定は、組み込みの Hive 初期化を制御します。 true に設定すると、Databricks はユーザーが持っているすべてのデータベースからすべての関数をFunctionRegistry
にリロードします。 これは、 Hive metastoreのデフォルトの動作です。 false に設定すると、Databricks は最適化のためにこのプロセスを無効にします。 - 【スパーク-34212】 Parquet ファイルからの 10 進データの読み取りに関連する問題を修正しました。
- [SPARK-33579][UI] プロキシの背後にあるエグゼキューターの空白ページを修正。
- [SPARK-20044][UI] パスプレフィックスを使用してフロントエンドリバースプロキシの背後でSpark UIをサポートします。
- [SPARK-33277] [PySpark][SQL] ContextAwareIterator を使用して、タスクの終了後に消費を停止します。
-
2021年2月4日
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
SELECT * FROM table LIMIT nrows
など)。 このリグレッションは、Arrow シリアル化が有効になっている ODBC/JDBC 経由でクエリを実行しているユーザーで発生しました。 - クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33677][SQL] パターンにescapeCharが含まれている場合、LikeSimplificationルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoinを壊さないように、join()でLogicalPlanのデータセットを変更しないようにします
-
2020年12月8日
- [SPARK-33587][CORE] ネストされた致命的なエラーでエグゼキューターを強制終了
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- [SPARK-33316][SQL] サポートユーザーが、Avroライティングのnull非null許容触媒スキーマに対してnull許容Avroスキーマを提供しました
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33404][SQL][3.0]
date_trunc
式の誤った結果を修正 - [SPARK-33339][Python] PySpark アプリケーションが非例外エラーによりハングアップする
- [SPARK-33183][SQL][HOTFIX] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [SPARK-33371] [Python][3.0] Python 3.9 の setup.py とテストの更新
- [SPARK-33391][SQL] CreateArray のelement_at 1 つのベースのインデックスを考慮しない。
- [SPARK-33306][SQL]日付を文字列にキャストする場合はタイムゾーンが必要です
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
- [SPARK-33272][SQL] QueryPlan.transformUpWithNewOutput の属性マッピングをプルーニングします。
- [SPARK-33404][SQL][3.0]
Databricks Runtime 7.2 (EoS)
「Databricks Runtime 7.2 (EoS)」を参照してください。
-
2021年2月4日
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
SELECT * FROM table LIMIT nrows
など)。 このリグレッションは、Arrow シリアル化が有効になっている ODBC/JDBC 経由でクエリを実行しているユーザーで発生しました。 - クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
- グローバル制限を設定するクエリの増分実行を妨げるリグレッションを修正しました (
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33677][SQL] パターンにescapeCharが含まれている場合、LikeSimplificationルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoinを壊さないように、join()でLogicalPlanのデータセットを変更しないようにします
-
2020年12月8日
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- [SPARK-33404][SQL]
date_trunc
式の誤った結果を修正 - [SPARK-33339][Python] PySpark アプリケーションが非例外エラーによりハングアップする
- [SPARK-33183][SQL] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [SPARK-33391][SQL] CreateArray のelement_at 1 つのベースのインデックスを考慮しない。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33306][SQL]日付を文字列にキャストする場合はタイムゾーンが必要です
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月29日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWritersの再分析を防ぐためにAlreadyOptimizedを導入
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
- 新しい設定
spark.shuffle.io.decoder.consolidateThreshold
を追加します。 設定値をLong.MAX_VALUE
に設定すると、netty FrameBuffers の統合がスキップされ、コーナーケースでのjava.lang.IndexOutOfBoundsException
が防止されます。
-
2020年9月24日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければなりません
- [SPARK-32753][SQL] プランを変換するときに、タグのないノードにのみタグをコピーする
- [SPARK-32659][SQL] 非アトミックタイプで挿入された動的パーティションプルーニングのデータ問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。
- Azure Synapse Analytics の新しいパラメーターが作成され
Databricks Runtime 7.1 (EoS)
「Databricks Runtime 7.1 (EoS)」を参照してください。
-
2021年2月4日
- クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33677][SQL] パターンにescapeCharが含まれている場合、LikeSimplificationルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoinを壊さないように、join()でLogicalPlanのデータセットを変更しないようにします
-
2020年12月8日
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- Databricks Connect を使用して起動された Spark ジョブが、エグゼキューター スタック トレースの
Executor$TaskRunner.$anonfun$copySessionState
で無期限にハングすることがありました - オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33404][SQL][3.0]
date_trunc
式の誤った結果を修正 - [SPARK-33339][Python] PySpark アプリケーションが非例外エラーによりハングアップする
- [SPARK-33183][SQL][HOTFIX] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [SPARK-33371] [Python][3.0] Python 3.9 の setup.py とテストの更新
- [SPARK-33391][SQL] CreateArray のelement_at 1 つのベースのインデックスを考慮しない。
- [SPARK-33306][SQL]日付を文字列にキャストする場合はタイムゾーンが必要です
- [SPARK-33404][SQL][3.0]
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月29日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWritersの再分析を防ぐためにAlreadyOptimizedを導入
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
- 新しい設定
spark.shuffle.io.decoder.consolidateThreshold
を追加します。 設定値をLong.MAX_VALUE
に設定すると、netty FrameBuffers の統合がスキップされ、コーナーケースでのjava.lang.IndexOutOfBoundsException
が防止されます。
-
2020年9月24日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければなりません
- [SPARK-32753][SQL] プランを変換するときに、タグのないノードにのみタグをコピーする
- [SPARK-32659][SQL] 非アトミックタイプで挿入された動的パーティションプルーニングのデータ問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月25日
- [SPARK-32159][SQL]
Aggregator[Array[_], _, _]
とUnresolvedMapObjects
- [SPARK-32559][SQL] 非ASCII文字を正しく処理しなかった
UTF8String.toInt/toLong
のトリムロジックを修正 - [SPARK-32543][R] SparkRの
arrow::as_tibble
の使用を削除 - [SPARK-32091][CORE] 失われたエグゼキューターのブロックを削除するときにタイムアウトエラーを無視する
- MSI 資格情報を使用した Azure Synapse コネクタに影響する問題を修正しました
- 自己マージでのあいまいな属性解決を修正しました
- [SPARK-32159][SQL]
-
2020年8月18日
- [SPARK-32594][SQL] Hiveテーブルに挿入された日付のシリアル化を修正
- [SPARK-32237][SQL] CTEの解決ヒント
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- [SPARK-32467][UI] httpsリダイレクトでURLを2回エンコードしないようにする
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- 【スパーク-32280】[SPARK-32372][SQL]ResolveReferences.dedupRight は、競合プランの先祖ノードの属性のみを書き換える必要があります
- [SPARK-32234][SQL] Spark SQL コマンドが ORC テーブルの選択に失敗する
-
2020年8月3日
- LDA 変換関数をパススルー対応クラスターで使用できるようになりました。
Databricks Runtime 7.0 (EoS)
「Databricks Runtime 7.0 (EoS)」を参照してください。
-
2021年2月4日
- クラスター環境変数設定に無効な bash 構文が含まれている場合 DBFS FUSE の起動に失敗するリグレッションを修正しました。
-
2021年1月20日
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
df.join(df.select($"col" as "new_col"), cond)
- 派生した DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合されたデータフレームの後の結合条件または次の変換は、非共通列を参照します。 例えば
df.join(df.drop("a"), df("a") === 1)
- これら 2 つの DataFrames には共通の列がありますが、自己結合の出力には共通の列がありません。 例えば
- 2021 年 1 月 12 日のメンテナンスリリースで、誤った AnalysisException が発生し、自己結合で列があいまいであると表示される可能性があるリグレッションを修正しました。 この回帰は、ユーザーが次の条件で DataFrame を派生 DataFrame と結合 (いわゆる自己結合) した場合に発生します。
-
2021年1月12日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-33593][SQL]ベクトルリーダーがバイナリパーティション値で誤ったデータを取得
- [SPARK-33677][SQL] パターンにescapeCharが含まれている場合、LikeSimplificationルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoinを壊さないように、join()でLogicalPlanのデータセットを変更しないようにします
-
2020年12月8日
- [SPARK-27421][SQL] パーティション列をプルーニングする際のint列と値クラスjava.lang.文字列のフィルターを修正
- [SPARK-33404][SQL]
date_trunc
式の誤った結果を修正 - [SPARK-33339][Python] PySpark アプリケーションが非例外エラーによりハングアップする
- [SPARK-33183][SQL] オプティマイザールールのEliminateSortsを修正し、冗長なソートを削除する物理ルールを追加
- [SPARK-33391][SQL] CreateArray のelement_at 1 つのベースのインデックスを考慮しない。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年11月20日
- [SPARK-33306][SQL]日付を文字列にキャストする場合はタイムゾーンが必要です
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月29日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWritersの再分析を防ぐためにAlreadyOptimizedを導入
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
- 新しい設定
spark.shuffle.io.decoder.consolidateThreshold
を追加します。 設定値をLong.MAX_VALUE
に設定すると、netty FrameBuffers の統合がスキップされ、コーナーケースでのjava.lang.IndexOutOfBoundsException
が防止されます。
-
2020年9月24日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければなりません
- [SPARK-32753][SQL] プランを変換するときに、タグのないノードにのみタグをコピーする
- [SPARK-32659][SQL] 非アトミックタイプで挿入された動的パーティションプルーニングのデータ問題を修正
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月25日
- [SPARK-32159][SQL]
Aggregator[Array[_], _, _]
とUnresolvedMapObjects
- [SPARK-32559][SQL] 非ASCII文字を正しく処理しなかった
UTF8String.toInt/toLong
のトリムロジックを修正 - [SPARK-32543][R] SparkRの
arrow::as_tibble
の使用を削除 - [SPARK-32091][CORE] 失われたエグゼキューターのブロックを削除するときにタイムアウトエラーを無視する
- MSI 資格情報を使用した Azure Synapse コネクタに影響する問題を修正しました
- 自己マージでのあいまいな属性解決を修正しました
- [SPARK-32159][SQL]
-
2020年8月18日
- [SPARK-32594][SQL] Hiveテーブルに挿入された日付のシリアル化を修正
- [SPARK-32237][SQL] CTEの解決ヒント
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- [SPARK-32467][UI] httpsリダイレクトでURLを2回エンコードしないようにする
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- 【スパーク-32280】[SPARK-32372][SQL]ResolveReferences.dedupRight は、競合プランの先祖ノードの属性のみを書き換える必要があります
- [SPARK-32234][SQL] Spark SQL コマンドが ORC テーブルの選択に失敗する
- LDA 変換関数をパススルー対応クラスターで使用できるようになりました。
Databricks Runtime 6.6 (EoS)
「Databricks Runtime 6.6 (EoS)」を参照してください。
-
2020年11月20日
- [SPARK-33260][SQL] sortOrderがストリームの場合のSortExecからの誤った結果を修正
- [SPARK-32635][SQL] 折り畳み可能な伝播を修正
-
2020年11月3日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレードしました。
- UserGroupInformation.getCurrentUser() に関する ABFS と WASB のロックを修正
- MAGICバイトを読み取る際のAvroリーダーの無限ループのバグを修正しました。
-
2020年10月13日
- オペレーティング システムのセキュリティ更新プログラム。
- [SPARK-32999][SQL][2.4] Utils.getSimpleNameを使用して、TreeNodeの不正な形式のクラス名にヒットしないようにします
- FUSEマウントに無効なXML文字を含むファイル名を含むディレクトリの一覧表示を修正
- FUSE マウントで ListMultipartUploads が使用されなくなりました
-
2020年9月24日
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。 - Azure Storage SDK を 8.6.4 に更新し、WASB ドライバーによる接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月25日
- 自己マージでのあいまいな属性解決を修正しました
-
2020年8月18日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- [SPARK-28676][CORE] ContextCleanerからの過剰なログ記録を回避
- [SPARK-31967][UI] ジョブUIの読み込み時間のリグレッションを修正するために、vis.js 4.21.0にダウングレード
-
2020年8月3日
- LDA 変換関数をパススルー対応クラスターで使用できるようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
Databricks Runtime 6.5 (EoS)
「Databricks Runtime 6.5 (EoS)」を参照してください。
-
2020年9月24日
- 標準クラスターでのパススルーが、ユーザーが使用するファイルシステムの実装を引き続き制限するという以前の制限を修正しました。 これで、ユーザーは制限なくローカルファイルシステムにアクセスできるようになります。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年9月8日
- Azure Synapse Analytics の新しいパラメーターが作成され
maxbinlength
。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、次のように変換されますVARBINARY(maxbinlength)
。 これは、0 < n <= 8000 の.option("maxbinlength", n)
を使用して設定できます。 - Azure Storage SDK を 8.6.4 に更新し、WASB ドライバーによる接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーターが作成され
-
2020年8月25日
- 自己マージでのあいまいな属性解決を修正しました
-
2020年8月18日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで重複するネストされた列を確認する
- Trigger.Once使用時のSQSコネクタの競合状態を修正しました。
-
2020年8月11日
- [SPARK-28676][CORE] ContextCleanerからの過剰なログ記録を回避
-
2020年8月3日
- LDA 変換関数をパススルー対応クラスターで使用できるようになりました。
- オペレーティング システムのセキュリティ更新プログラム。
-
2020年7月7日
- Java バージョンを 1.8.0_242 から 1.8.0_252 にアップグレードしました。
-
2020年4月21日
- [SPARK-31312][SQL] HiveFunctionWrapperのUDFインスタンスのキャッシュクラスインスタンス
Databricks Runtime 6.3 (EoS)
「Databricks Runtime 6.3 (EoS)」を参照してください。
-
2020年7月7日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレードしました。
-
2020年4月21日
- [SPARK-31312][SQL] HiveFunctionWrapperのUDFインスタンスのキャッシュクラスインスタンス
-
2020年4月7日
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加しました。 [SPARK-29367]の手順を参照してください。
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
-
2020年3月10日
- Databricks Runtime に含まれる Snowflake コネクタ (
spark-snowflake_2.11
) がバージョン 2.5.9 に更新されました。snowflake-jdbc
がバージョン 3.12.0 に更新されました。
- Databricks Runtime に含まれる Snowflake コネクタ (
-
2020年2月18日
- ADLS Gen2 での資格情報のパススルーでは、ADLS クライアントのプリフェッチが有効になっている場合にスレッド ローカル処理が正しくないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合、ADLS Gen2 のプリフェッチが無効になります。
-
2020年2月11日
-
S3クライアント(S3AFileSystem.java)のバグを修正しました。 そのため、
fs.isDirectory(path)
やfs.getFileStatus(path).isDirectory()
が誤ってfalse
を返すことがありました。 このバグは、aws s3 list-objects-v2 --prefix path/ --max-keys 1 --delimiter /
がキーや共通のプレフィックスなしで応答するパスで発生しますがisTruncated = true
、. これは、多くのオブジェクトが削除され、バージョン管理が有効になっているディレクトリで発生する可能性があります。 -
[SPARK-24783] [SQL] spark.sql.shuffle.partitions=0 例外をスローする必要があります
-
[SPARK-30447][SQL] 定数伝播の null 可能性の問題
-
[SPARK-28152][SQL] 古いMsSqlServerDialect数値マッピングにレガシーconfを追加
-
上書き関数を許可リストに登録して、MLModels extends MLWriter が関数を呼び出せるようにしました。
-
Databricks Runtime 6.2 (EoS)
「Databricks Runtime 6.2 (EoS)」を参照してください。
-
2020年4月21日
- [SPARK-31312][SQL] HiveFunctionWrapperのUDFインスタンスのキャッシュクラスインスタンス
-
2020年4月7日
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加しました。 [SPARK-29367]の手順を参照してください。
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
-
2020年3月25日
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
spark.databricks.driver.disableScalaOutput
Spark 設定をtrue
に設定することで、ドライバーから stdout が返されるのを防ぐことができます。 デフォルトでは、フラグ値はfalse
です。 このフラグは、Scala JAR ジョブと Scala ノートブックのセル出力を制御します。 フラグが有効になっている場合、Spark はジョブの実行結果をクライアントに返しません。 このフラグは、クラスターのログ・ファイルに書き込まれるデータには影響しません。 このフラグを設定すると、ノートブックの結果が無効になるため、 JAR ジョブの自動クラスターの場合にのみお勧めします。
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
-
2020年3月10日
- Databricks Runtime に含まれる Snowflake コネクタ (
spark-snowflake_2.11
) がバージョン 2.5.9 に更新されました。snowflake-jdbc
がバージョン 3.12.0 に更新されました。
- Databricks Runtime に含まれる Snowflake コネクタ (
-
2020年2月18日
- [SPARK-24783] [SQL] spark.sql.shuffle.partitions=0 例外をスローする必要があります
- ADLS Gen2 での資格情報のパススルーでは、ADLS クライアントのプリフェッチが有効になっている場合にスレッド ローカル処理が正しくないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合、ADLS Gen2 のプリフェッチが無効になります。
-
2020年1月28日
-
S3AFileSystem で、
fs.isDirectory(path)
やfs.getFileStatus(path).isDirectory()
が誤ってfalse
を返すことがあるバグを修正しました。 このバグは、aws s3 list-objects-v2 --prefix path/ --max-keys 1 --delimiter /
がキーや共通のプレフィックスなしで応答するパスで発生しますがisTruncated = true
、. これは、多くのオブジェクトが削除され、バージョン管理が有効になっているディレクトリで発生する可能性があります。 -
許可リストに登録された ML モデル ライターのクラスターの上書き機能が資格情報のパススルーに対して有効になっているため、モデルの保存で資格情報のパススルー クラスターで上書きモードを使用できます。
-
[SPARK-30447][SQL] 定数伝播の null 可能性の問題。
-
[SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピングのレガシー conf を追加します。
-
-
2020年1月14日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレードしました。
-
2019年12月10日
- [SPARK-29904][SQL] JSON/CSV データソースによってタイムスタンプをマイクロ秒の精度で解析します。
Databricks Runtime 6.1 (EoS)
「Databricks Runtime 6.1 (EoS)」を参照してください。
-
2020年4月7日
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加しました。 [SPARK-29367]の手順を参照してください。
- PyArrow 0.15.0 以降で Pandas udf が動作しない問題を解決するために、これらのバージョンの PyArrow のサポートを有効にするための環境変数 (
-
2020年3月25日
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
spark.databricks.driver.disableScalaOutput
Spark 設定をtrue
に設定することで、ドライバーから stdout が返されるのを防ぐことができます。 デフォルトでは、フラグ値はfalse
です。 このフラグは、Scala JAR ジョブと Scala ノートブックのセル出力を制御します。 フラグが有効になっている場合、Spark はジョブの実行結果をクライアントに返しません。 このフラグは、クラスターのログ・ファイルに書き込まれるデータには影響しません。 このフラグを設定すると、ノートブックの結果が無効になるため、 JAR ジョブの自動クラスターの場合にのみお勧めします。
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
-
2020年3月10日
- Databricks Runtime に含まれる Snowflake コネクタ (
spark-snowflake_2.11
) がバージョン 2.5.9 に更新されました。snowflake-jdbc
がバージョン 3.12.0 に更新されました。
- Databricks Runtime に含まれる Snowflake コネクタ (
-
2020年2月18日
- [SPARK-24783] [SQL] spark.sql.shuffle.partitions=0 例外をスローする必要があります
- ADLS Gen2 での資格情報のパススルーでは、ADLS クライアントのプリフェッチが有効になっている場合にスレッド ローカル処理が正しくないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合、ADLS Gen2 のプリフェッチが無効になります。
-
2020年1月28日
-
S3AFileSystem で、
fs.isDirectory(path)
やfs.getFileStatus(path).isDirectory()
が誤ってfalse
を返すことがあるバグを修正しました。 このバグは、aws s3 list-objects-v2 --prefix path/ --max-keys 1 --delimiter /
がキーや共通のプレフィックスなしで応答するパスで発生しますがisTruncated = true
、. これは、多くのオブジェクトが削除され、バージョン管理が有効になっているディレクトリで発生する可能性があります。 -
[SPARK-30447][SQL] 定数伝播の null 可能性の問題。
-
[SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピングのレガシー conf を追加します。
-
-
2020年1月14日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレードしました。
-
2019年11月7日
- [SPARK-29743][SQL]サンプルでは、子のneedCopyResultがtrueの場合、needCopyResultをtrueに設定する必要があります。
- パブリック プレビューの Spark 構成プロパティと環境変数から参照されるシークレット。 「Spark 構成プロパティまたは環境変数でのシークレットの使用」を参照してください。
-
2019年11月5日
- パスに
//
を持つマウント ポイントを処理するための DBFS FUSE のバグを修正しました。 - 【スパーク-29081】 プロパティの SerializationUtils.clone の呼び出しを、より高速な実装に置き換える
- [SPARK-29244][CORE] BytesToBytesMapの解放されたページが再び解放されないようにします
- (6.1 ML) ライブラリ MKL Version 2019.4 が意図せずインストールされてしまいました。 Anaconda Distribution 2019.03 に合わせて mkl バージョン 2019.3 にダウングレードしました。
- パスに
Databricks Runtime 6.0 (EoS)
「Databricks Runtime 6.0 (EoS)」を参照してください。
-
2020年3月25日
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
spark.databricks.driver.disableScalaOutput
Spark 設定をtrue
に設定することで、ドライバーから stdout が返されるのを防ぐことができます。 デフォルトでは、フラグ値はfalse
です。 このフラグは、Scala JAR ジョブと Scala ノートブックのセル出力を制御します。 フラグが有効になっている場合、Spark はジョブの実行結果をクライアントに返しません。 このフラグは、クラスターのログ・ファイルに書き込まれるデータには影響しません。 このフラグを設定すると、ノートブックの結果が無効になるため、 JAR ジョブの自動クラスターの場合にのみお勧めします。
- ジョブ出力 (stdout に出力されるログ出力など) には、20MB のサイズ制限があります。 合計出力のサイズが大きい場合、実行はキャンセルされ、失敗としてマークされます。 この制限が発生しないようにするには、
-
2020年2月18日
- ADLS Gen2 での資格情報のパススルーでは、ADLS クライアントのプリフェッチが有効になっている場合にスレッド ローカル処理が正しくないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合、ADLS Gen2 のプリフェッチが無効になります。
-
2020年2月11日
- [SPARK-24783] [SQL] spark.sql.shuffle.partitions=0 例外をスローする必要があります
-
2020年1月28日
-
S3AFileSystem で、
fs.isDirectory(path)
やfs.getFileStatus(path).isDirectory()
が誤ってfalse
を返すことがあるバグを修正しました。 このバグは、aws s3 list-objects-v2 --prefix path/ --max-keys 1 --delimiter /
がキーや共通のプレフィックスなしで応答するパスで発生しますがisTruncated = true
、. これは、多くのオブジェクトが削除され、バージョン管理が有効になっているディレクトリで発生する可能性があります。 -
[SPARK-30447][SQL] 定数伝播の null 可能性の問題。
-
[SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピングのレガシー conf を追加します。
-
-
2020年1月14日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレードしました。
-
2019年11月19日
- [SPARK-29743] [SQL] サンプルは、子の needCopyResult が true の場合、needCopyResult を true に設定する必要があります
-
2019年11月5日
-
DBFS FUSE は、既定 ACL を使用した S3 マウントをサポートします。
-
dbutils.tensorboard.start()
TensorBoard 2.0 に対応しました (手動でインストールした場合)。 -
パスに
//
を持つマウント ポイントを処理するための DBFS FUSE のバグを修正しました。 -
【スパーク-29081】プロパティの SerializationUtils.clone の呼び出しを、より高速な実装に置き換える
-
-
2019年10月23日
- [SPARK-29244][CORE] BytesToBytesMapの解放されたページが再び解放されないようにします
-
2019年10月8日
- Simba Apache Spark ODBC ドライバーが、結果のフェッチ中に接続エラーの後に再接続して続行できるようにするためのサーバー側の変更 ( Simba Apache Spark ODBC ドライバー バージョン 2.6.10 が必要)。
- テーブル ACL が有効なクラスターで
Optimize
コマンドを使用する際に影響する問題を修正しました。 - クラスターが有効になっているScala UDFACLテーブルで禁止されているエラーが原因でライブラリ
pyspark.ml
が失敗する問題を修正しました。 - WASB クライアントでエラー・コードを確認する際の NullPointerException を修正しました。
Databricks Runtime 5.4 ML (EoS)
「Databricks Runtime 5.4 for ML (EoS)」を参照してください。
- 2019年6月18日
- Hyperopt 統合での MLflow アクティブ実行の処理の改善
- Hyperopt のメッセージの改善
- パッケージ
Marchkdown
を 3.1 から 3.1.1 に更新
Databricks Runtime 5.4 (EoS)
「Databricks Runtime 5.4 (EoS)」を参照してください。
-
2019年11月19日
- [SPARK-29743] [SQL] サンプルは、子の needCopyResult が true の場合、needCopyResult を true に設定する必要があります
-
2019年10月8日
- Simba Apache Spark ODBC ドライバーが、結果のフェッチ中に接続エラー後に再接続して続行できるようにするためのサーバー側の変更(Simba Apache Spark ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
- WASB クライアントでエラー・コードを確認する際の NullPointerException を修正しました。
-
2019年9月10日
- スレッド セーフなイテレータを BytesToBytesMap に追加する
- 特定のグローバル集計クエリに影響するバグを修正しました。
- [SPARK-27330][SS] foreachライターでサポートタスクが中止される
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] 再パーティションの場合、ShuffleExchangeExecの基数ソートの使用を無効にする
- [SPARK-28699][CORE] 不確定なステージを中止するコーナーケースを修正
-
2019年8月27日
- 特定の
transform
式に影響する問題を修正しました
- 特定の
-
2019年8月13日
- Delta ストリーミング ソース は、テーブルの最新のプロトコルを確認する必要があります
- [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRangesがオフセットをドロップする可能性があるバグを修正
-
2019年7月30日
- [SPARK-28015][SQL] stringToDate()がyyyyおよびyyyy-[m]m形式の入力全体を消費します
- [SPARK-28308][CORE] CalendarIntervalのサブセカンド部分を解析前に埋め込む必要がある
- [スパーク-27485]EnsureRequirements.reorder は、重複する式を適切に処理する必要があります
-
2019年7月2日
- snappy-java を 1.1.7.1 から 1.1.7.3 にアップグレードしました。
-
2019年6月18日
- MLlib 統合での MLflow アクティブ実行の処理の改善
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージの改善
- 高階関数の使用に影響するバグを修正しました
- Delta メタデータ クエリに影響するバグを修正しました
Databricks Runtime 5.3 (EoS)
「Databricks Runtime 5.3 (EoS)」を参照してください。
-
2019年11月7日
- [SPARK-29743][SQL]サンプルでは、子のneedCopyResultがtrueの場合、needCopyResultをtrueに設定する必要があります
-
2019年10月8日
- Simba Apache Spark ODBC ドライバーが、結果のフェッチ中に接続エラー後に再接続して続行できるようにするためのサーバー側の変更(Simba Apache Spark ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
- WASB クライアントでエラー・コードを確認する際の NullPointerException を修正しました。
-
2019年9月10日
- スレッド セーフなイテレータを BytesToBytesMap に追加する
- 特定のグローバル集計クエリに影響するバグを修正しました。
- [SPARK-27330][SS] foreachライターでサポートタスクが中止される
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] 再パーティションの場合、ShuffleExchangeExecの基数ソートの使用を無効にする
- [SPARK-28699][CORE] 不確定なステージを中止するコーナーケースを修正
-
2019年8月27日
- 特定の
transform
式に影響する問題を修正しました
- 特定の
-
2019年8月13日
- Delta ストリーミング ソース は、テーブルの最新のプロトコルを確認する必要があります
- [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRangesがオフセットをドロップする可能性があるバグを修正
-
2019年7月30日
- [SPARK-28015][SQL] stringToDate()がyyyyおよびyyyy-[m]m形式の入力全体を消費します
- [SPARK-28308][CORE] CalendarIntervalのサブセカンド部分を解析前に埋め込む必要がある
- [スパーク-27485]EnsureRequirements.reorder は、重複する式を適切に処理する必要があります
-
2019年6月18日
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージの改善
- 高階関数の使用に影響するバグを修正しました
- Delta メタデータ クエリに影響するバグを修正しました
-
2019年5月28日
- Deltaの安定性が向上しました
- Delta LAST_CHECKPOINTファイルの読み取り時に IOExceptions を許容する
- 失敗したライブラリのインストールに対するリカバリを追加
-
2019年5月7日
- HADOOP-15778 (ABFS: クライアント側の読み取り調整を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- ポート HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに
- テーブル ACL に影響するバグを修正しました
fs.s3a.requesterPays.enabled
に名前が変更されましたfs.s3a.requester-pays.enabled
- Deltaログチェックサムファイルをロードする際の競合状態を修正
- 「挿入 + 上書き」を純粋な「追加」操作として識別しないように、 Delta 競合検出ロジックを修正しました
- Amazon Kinesis コネクタに影響するバグを修正しました
- テーブル ACL が有効な場合、ディスクキャッシングが無効になっていないことを確認します
- [SPARK-27494][SS]Null キー/値は Kafka ソース v2 では機能しません
- 【スパーク-27446】[r] 既存の spark conf がある場合は、それを使用します。
- [スパーク-27454][スパーク-27454]【MLの】[SQL]Sparkイメージデータソースは、不正な画像に遭遇すると失敗します
- [スパーク-27160][SQL]orc フィルターを作成する際の DecimalType を修正
- 【スパーク-27338】[コア]UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
Databricks Runtime 5.2 (EoS)
「Databricks Runtime 5.2 (EoS)」を参照してください。
-
2019年9月10日
- スレッド セーフなイテレータを BytesToBytesMap に追加する
- 特定のグローバル集計クエリに影響するバグを修正しました。
- [SPARK-27330][SS] foreachライターでサポートタスクが中止される
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] 再パーティションの場合、ShuffleExchangeExecの基数ソートの使用を無効にする
- [SPARK-28699][CORE] 不確定なステージを中止するコーナーケースを修正
-
2019年8月27日
- 特定の
transform
式に影響する問題を修正しました
- 特定の
-
2019年8月13日
- Delta ストリーミング ソース は、テーブルの最新のプロトコルを確認する必要があります
- [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRangesがオフセットをドロップする可能性があるバグを修正
-
2019年7月30日
- [SPARK-28015][SQL] stringToDate()がyyyyおよびyyyy-[m]m形式の入力全体を消費します
- [SPARK-28308][CORE] CalendarIntervalのサブセカンド部分を解析前に埋め込む必要がある
- [スパーク-27485]EnsureRequirements.reorder は、重複する式を適切に処理する必要があります
-
2019年7月2日
- Delta LAST_CHECKPOINTファイルの読み取り時に IOExceptions を許容する
-
2019年6月18日
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージの改善
- 高階関数の使用に影響するバグを修正しました
- Delta メタデータ クエリに影響するバグを修正しました
-
2019年5月28日
- 失敗したライブラリのインストールに対するリカバリを追加
-
2019年5月7日
- HADOOP-15778 (ABFS: クライアント側の読み取り調整を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- ポート HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに
- Deltaログチェックサムファイルをロードする際の競合状態を修正
- 「挿入 + 上書き」を純粋な「追加」操作として識別しないように、 Delta 競合検出ロジックを修正しました
- Amazon Kinesis コネクタに影響するバグを修正しました
- テーブル ACL が有効な場合、ディスクキャッシングが無効になっていないことを確認します
- [SPARK-27494][SS]Null キー/値は Kafka ソース v2 では機能しません
- [スパーク-27454][スパーク-27454]【MLの】[SQL]Sparkイメージデータソースは、不正な画像に遭遇すると失敗します
- [スパーク-27160][SQL]orc フィルターを作成する際の DecimalType を修正
- 【スパーク-27338】[コア]UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
-
2019年3月26日
- プラットフォームに依存するオフセットを文字通りステージ全体の生成コードに埋め込むことは避けてください
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSyncが永久にハングする可能性があるバグを修正。
- [SPARK-27134][SQL] array_distinct関数が配列の配列を含む列で正しく動作しません。
- [SPARK-24669][SQL] DROP DATABASE CASCADEの場合、テーブルを無効にします。
- [SPARK-26572][SQL]集計コード生成結果の評価を修正。
- 特定の PythonUDF に影響するバグを修正しました。
-
2019年2月26日
- [SPARK-26864][SQL] Python udf が左半結合条件として使用されていると、クエリが誤った結果を返す場合がある。
- [SPARK-26887][Python] 中間データとして datetime64 を作成する代わりに、datetime.date を直接作成します。
- JDBC/ODBC サーバーに影響するバグを修正しました。
- PySpark に影響するバグを修正しました。
- HadoopRDD をビルドするときに隠しファイルを除外します。
- シリアル化の問題が発生していた Delta のバグを修正しました。
-
2019年2月12日
-
Azure ADLS Gen2 マウント ポイントでの Delta の使用に影響する問題を修正しました。
-
Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
-
-
2019年1月30日
- キャッシュされたリレーションにスキュージョインヒントを配置する際のStackOverflowErrorを修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
- [SPARK-26706][SQL] ByteTypeの
illegalNumericPrecedence
を修正。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQueryが空のレコードを正しく処理しない。
- CSV/JSON データソースは、スキーマを推論する際にパスのグロビングを避けるべきです。
- ウィンドウ演算子の制約推論を修正しました。
- テーブル ACL が有効になっているクラスターを使用したeggライブラリのインストールに影響する問題を修正しました。
Databricks Runtime 5.1 (EoS)
「Databricks Runtime 5.1 (EoS)」を参照してください。
-
2019年8月13日
- Delta ストリーミング ソース は、テーブルの最新のプロトコルを確認する必要があります
- [SPARK-28489][SS]KafkaOffsetRangeCalculator.getRangesがオフセットをドロップする可能性があるバグを修正
-
2019年7月30日
- [SPARK-28015][SQL] stringToDate()がyyyyおよびyyyy-[m]m形式の入力全体を消費します
- [SPARK-28308][CORE] CalendarIntervalのサブセカンド部分を解析前に埋め込む必要がある
- [スパーク-27485]EnsureRequirements.reorder は、重複する式を適切に処理する必要があります
-
2019年7月2日
- Delta LAST_CHECKPOINTファイルの読み取り時に IOExceptions を許容する
-
2019年6月18日
- 高階関数の使用に影響するバグを修正しました
- Delta メタデータ クエリに影響するバグを修正しました
-
2019年5月28日
- 失敗したライブラリのインストールに対するリカバリを追加
-
2019年5月7日
- HADOOP-15778 (ABFS: クライアント側の読み取り調整を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- ポート HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに
- Deltaログチェックサムファイルをロードする際の競合状態を修正
- 「挿入 + 上書き」を純粋な「追加」操作として識別しないように、 Delta 競合検出ロジックを修正しました
- [SPARK-27494][SS]Null キー/値は Kafka ソース v2 では機能しません
- [スパーク-27454][スパーク-27454]【MLの】[SQL]Sparkイメージデータソースは、不正な画像に遭遇すると失敗します
- [スパーク-27160][SQL]orc フィルターを作成する際の DecimalType を修正
- 【スパーク-27338】[コア]UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
-
2019年3月26日
- プラットフォームに依存するオフセットを文字通りステージ全体の生成コードに埋め込むことは避けてください
- 特定の PythonUDF に影響するバグを修正しました。
-
2019年2月26日
- [SPARK-26864][SQL] Python udf が左半結合条件として使用されていると、クエリが誤った結果を返す場合がある。
- JDBC/ODBC サーバーに影響するバグを修正しました。
- HadoopRDD をビルドするときに隠しファイルを除外します。
-
2019年2月12日
-
テーブル ACL が有効になっているクラスターを使用したeggライブラリのインストールに影響する問題を修正しました。
-
SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
-
[SPARK-26706][SQL] ByteTypeの
illegalNumericPrecedence
を修正。 -
[SPARK-26709][SQL] OptimizeMetadataOnlyQueryが空のレコードを正しく処理しない。
-
ウィンドウ演算子の制約推論を修正しました。
-
Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
-
-
2019年1月30日
- UDT を使用した
df.rdd.count()
が特定の場合に誤った回答を返す可能性がある問題を修正しました。 - 操舵室の取り付けに影響する問題を修正しました。
- [スパーク-26267]Kafka からの誤ったオフセットを検出した場合は再試行してください。
- ストリーミング クエリ内の複数のファイル ストリーム ソースに影響するバグを修正しました。
- キャッシュされたリレーションにスキュージョインヒントを配置する際のStackOverflowErrorを修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
- UDT を使用した
-
2019年1月8日
-
エラーの原因となる問題を修正しました
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. -
[SPARK-26352]結合の並べ替えによって出力属性の順序が変更されないようにする必要があります。
-
[スパーク-26366]ReplaceExceptWithFilter は NULL を False と見なす必要があります。
-
Delta Lake の安定性が向上しました。
-
Delta Lake が有効になっています。
-
Databricks IO キャッシュは、IO キャッシュ高速化インスタンスタイプで有効になっています。
-
Databricks Runtime 5.0 (EoS)
「Databricks Runtime 5.0 (EoS)」を参照してください。
-
2019年6月18日
- 高階関数の使用に影響するバグを修正しました
-
2019年5月7日
- Deltaログチェックサムファイルをロードする際の競合状態を修正
- 「挿入 + 上書き」を純粋な「追加」操作として識別しないように、 Delta 競合検出ロジックを修正しました
- [SPARK-27494][SS]Null キー/値は Kafka ソース v2 では機能しません
- [スパーク-27454][スパーク-27454]【MLの】[SQL]Sparkイメージデータソースは、不正な画像に遭遇すると失敗します
- [スパーク-27160][SQL]orc フィルターを作成する際の DecimalType を修正
- 【スパーク-27338】[コア]UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
-
2019年3月26日
- プラットフォームに依存するオフセットを文字通りステージ全体の生成コードに埋め込むことは避けてください
- 特定の PythonUDF に影響するバグを修正しました。
-
2019年3月12日
- [SPARK-26864][SQL] Python udf が左半結合条件として使用されていると、クエリが誤った結果を返す場合がある。
-
2019年2月26日
- JDBC/ODBC サーバーに影響するバグを修正しました。
- HadoopRDD をビルドするときに隠しファイルを除外します。
-
2019年2月12日
-
SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
-
[SPARK-26706][SQL] ByteTypeの
illegalNumericPrecedence
を修正。 -
[SPARK-26709][SQL] OptimizeMetadataOnlyQueryが空のレコードを正しく処理しない。
-
ウィンドウ演算子の制約推論を修正しました。
-
Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
-
-
2019年1月30日
- UDT を使用した
df.rdd.count()
が特定の場合に誤った回答を返す可能性がある問題を修正しました。 - [スパーク-26267]Kafka からの誤ったオフセットを検出した場合は再試行してください。
- ストリーミング クエリ内の複数のファイル ストリーム ソースに影響するバグを修正しました。
- キャッシュされたリレーションにスキュージョインヒントを配置する際のStackOverflowErrorを修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
- UDT を使用した
-
2019年1月8日
-
エラーの原因となった問題を修正
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
。 -
[SPARK-26352]結合の並べ替えによって出力属性の順序が変更されないようにする必要があります。
-
[スパーク-26366]ReplaceExceptWithFilter は NULL を False と見なす必要があります。
-
Delta Lake の安定性が向上しました。
-
Delta Lake が有効になっています。
-
Databricks IO キャッシュは、IO キャッシュ高速化インスタンスタイプで有効になっています。
-
-
2018年12月18日
- [スパーク-26293]サブクエリにPython UDFがある場合に例外をキャストする
- Join と Limit を使用する特定のクエリに影響する問題を修正しました。
- Spark UI の RDD 名から編集された資格情報
-
2018年12月6日
- sort-by キーの先頭部分として group-by キーを使用して orderBy の直後に groupBy を使用すると、クエリ結果が正しく表示されない問題を修正しました。
- Spark 用 Snowflake Connector を 2.4.9.2-spark_2.4_pre_release から 2.4.10 にアップグレードしました。
- 1 回以上の再試行後に破損したファイルを無視するのは、
spark.sql.files.ignoreCorruptFiles
フラグまたはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合のみです。 - 特定の自己結合クエリに影響する問題を修正しました。
- Thriftサーバーのキャンセル時にセッションがリークされることがあるバグを修正しました。
- [スパーク-26307]Hive SerDe を使用してパーティション テーブルを INSERT するときの CTAS を修正しました。
- [スパーク-26147]結合条件の Python UDFs は、結合の片側のみの列を使用している場合でも失敗します
- [スパーク-26211]バイナリのInSet、およびnullの構造体と配列を修正します。
- [SPARK-26181]
ColumnStatsMap
のhasMinMaxStats
方法が正しくありません。 - インターネットにアクセスできない環境でのPython Wheelsのインストールに影響する問題を修正しました。
-
2018年11月20日
-
ストリーミング クエリをキャンセルした後にノートブックが使用できなくなる問題を修正しました。
-
ウィンドウ関数を使用する特定のクエリに影響する問題を修正しました。
-
複数のスキーマ変更を伴う Delta からのストリームに影響する問題を修正しました。
-
左半結合/反結合を使用する特定の集計クエリに影響する問題を修正しました。
-
Redshift からのタイムスタンプ列の読み取りに影響する問題を修正しました。
-
Databricks Runtime 4.3 (EoS)
「Databricks Runtime 4.3 (EoS)」を参照してください。
-
2019年4月9日
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSyncが永久にハングする原因となるバグを修正。
- [SPARK-24669][SQL] DROP DATABASE CASCADEの場合、テーブルを無効にします。
-
2019年3月12日
- コード生成に影響するバグを修正しました。
- Deltaに影響するバグを修正しました。
-
2019年2月26日
- JDBC/ODBC サーバーに影響するバグを修正しました。
-
2019年2月12日
-
[SPARK-26709][SQL] OptimizeMetadataOnlyQueryが空のレコードを正しく処理しない。
-
HadoopRDD のビルド時に隠しファイルを除外します。
-
値が空の場合の IN 述語の Parquet フィルター変換を修正しました。
-
Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
-
-
2019年1月30日
- UDT を使用した
df.rdd.count()
が特定の場合に誤った回答を返す可能性がある問題を修正しました。 - SQL キャッシュのキャッシュされた RDD とその物理プランとの間の不整合を修正し、誤った結果を引き起こしていました。
- UDT を使用した
-
2019年1月8日
-
エラーの原因となる問題を修正しました
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. -
Spark UI の RDD 名から編集された資格情報
-
[SPARK-26352]結合の並べ替えによって出力属性の順序が変更されないようにする必要があります。
-
[スパーク-26366]ReplaceExceptWithFilter は NULL を False と見なす必要があります。
-
Delta Lake が有効になっています。
-
Databricks IO キャッシュは、IO キャッシュ高速化インスタンスタイプで有効になっています。
-
-
2018年12月18日
- 【スパーク-25002】Avro: 出力レコードの名前空間を変更します。
- Join と Limit を使用する特定のクエリに影響する問題を修正しました。
- [スパーク-26307]Hive SerDe を使用してパーティション テーブルを INSERT するときの CTAS を修正しました。
- 1 回以上の再試行後に破損したファイルを無視するのは、
spark.sql.files.ignoreCorruptFiles
フラグまたはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合のみです。 - [SPARK-26181]
ColumnStatsMap
のhasMinMaxStats
方法が正しくありません。 - インターネットにアクセスできない環境でのPython Wheelsのインストールに影響する問題を修正しました。
- クエリ アナライザーのパフォーマンスの問題を修正しました。
- PySpark で DataFrame アクションが "接続が拒否されました" エラーで失敗する原因となっていた問題を修正しました。
- 特定の自己結合クエリに影響する問題を修正しました。
-
2018年11月20日
-
[スパーク-17916]【スパーク-25241】nullValue が設定されている場合に空の文字列が null として解析される問題を修正しました。
-
[スパーク-25387]不正なCSV入力が原因で発生するNPEの修正。
-
左半結合/反結合を使用する特定の集計クエリに影響する問題を修正しました。
-
Redshift からのタイムスタンプ列の読み取りに影響する問題を修正しました。
-
-
2018年11月6日
- [スパーク-25741]長い URL は Web UI で正しくレンダリングされません。
- [スパーク-25714]オプティマイザールールBooleanSimplificationのnull処理を修正しました。
- Synapse アナリティクス コネクタの一時オブジェクトのクリーンアップに影響する問題を修正しました。
- [スパーク-25816]ネストされたエクストラクターの属性解決を修正します。
-
2018年10月9日
- Delta テーブルでの実行中の
SHOW CREATE TABLE
の出力に影響するバグを修正しました。 Union
操作に影響するバグを修正しました。
- Delta テーブルでの実行中の
-
2018年9月25日
- [SPARK-25368][SQL] 不適切な制約推論が間違った結果を返します。
- [SPARK-25402][SQL] BooleanSimplificationでのnull処理。
- Avro データソースの固定
NotSerializableException
。
-
2018年9月11日
- [SPARK-25214][SS]
failOnDataLoss=false
時に v2 ソースが重複したレコードを返す可能性がある問題を修正 Kafka 。 - [SPARK-24987][SS] articlePartitionに新しいオフセットがない場合のKafkaコンシューマーリークを修正。
- フィルターの削減では、null 値を正しく処理する必要があります。
- 実行エンジンの安定性が向上しました。
- [SPARK-25214][SS]
-
2018年8月28日
- Delta Lake の Delete コマンドで、条件が null と評価される行が誤って削除されるバグを修正しました。
- 【スパーク-25142】Python ワーカーが でソケットを開くことができなかった場合のエラーメッセージを追加
_load_from_socket
.
-
2018年8月23日
- [SPARK-23935]mapEntryが
org.codehaus.commons.compiler.CompileException
をスローします。 - Parquet リーダーの null 許容マップの問題を修正しました。
- [SPARK-25051][SQL] FixNullabilityがAnalysisBarrierで停止しないようにする必要があります。
- 【スパーク-25081】スピルがメモリの割り当てに失敗した場合に、ShuffleExternalSorterが解放されたメモリページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーを引き起こす可能性のある Databricks Delta と PySpark の間の相互作用を修正しました。
- [SPARK-25084]複数の列(括弧で囲む)の「配布方法」がcodegenの問題を引き起こす可能性がある。
- 【スパーク-25096】キャストが強制 null 許容の場合は、null 許容を緩めます。
- Delta Lake Optimize コマンドで使用されるデフォルトのスレッド数を減らし、メモリのオーバーヘッドを削減し、データのコミットを高速化しました。
- [スパーク-25114]2 つの単語間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正しました。
- コマンドが部分的に成功した場合のシークレットマネージャーの編集を修正しました。
- [SPARK-23935]mapEntryが
Databricks Runtime 4.2 (EoS)
「Databricks Runtime 4.2 (EoS)」を参照してください。
-
2019年2月26日
- JDBC/ODBC サーバーに影響するバグを修正しました。
-
2019年2月12日
-
[SPARK-26709][SQL] OptimizeMetadataOnlyQueryが空のレコードを正しく処理しない。
-
HadoopRDD のビルド時に隠しファイルを除外します。
-
値が空の場合の IN 述語の Parquet フィルター変換を修正しました。
-
Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
-
-
2019年1月30日
- UDT を使用した
df.rdd.count()
が特定の場合に誤った回答を返す可能性がある問題を修正しました。
- UDT を使用した
-
2019年1月8日
-
エラーの原因となる問題を修正しました
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
. -
Spark UI の RDD 名から編集された資格情報
-
[SPARK-26352]結合の並べ替えによって出力属性の順序が変更されないようにする必要があります。
-
[スパーク-26366]ReplaceExceptWithFilter は NULL を False と見なす必要があります。
-
Delta Lake が有効になっています。
-
Databricks IO キャッシュは、IO キャッシュ高速化インスタンスタイプで有効になっています。
-
-
2018年12月18日
- 【スパーク-25002】Avro: 出力レコードの名前空間を変更します。
- Join と Limit を使用する特定のクエリに影響する問題を修正しました。
- [スパーク-26307]Hive SerDe を使用してパーティション テーブルを INSERT するときの CTAS を修正しました。
- 1 回以上の再試行後に破損したファイルを無視するのは、
spark.sql.files.ignoreCorruptFiles
フラグまたはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合のみです。 - [SPARK-26181]
ColumnStatsMap
のhasMinMaxStats
方法が正しくありません。 - インターネットにアクセスできない環境でのPython Wheelsのインストールに影響する問題を修正しました。
- クエリ アナライザーのパフォーマンスの問題を修正しました。
- PySpark で DataFrame アクションが "接続が拒否されました" エラーで失敗する原因となっていた問題を修正しました。
- 特定の自己結合クエリに影響する問題を修正しました。
-
2018年11月20日
-
[スパーク-17916]【スパーク-25241】nullValue が設定されている場合に空の文字列が null として解析される問題を修正しました。
-
左半結合/反結合を使用する特定の集計クエリに影響する問題を修正しました。
-
Redshift からのタイムスタンプ列の読み取りに影響する問題を修正しました。
-
-
2018年11月6日
- [スパーク-25741]長い URL は Web UI で正しくレンダリングされません。
- [スパーク-25714]オプティマイザールールBooleanSimplificationのnull処理を修正しました。
-
2018年10月9日
- Delta テーブルでの実行中の
SHOW CREATE TABLE
の出力に影響するバグを修正しました。 Union
操作に影響するバグを修正しました。
- Delta テーブルでの実行中の
-
2018年9月25日
- [SPARK-25368][SQL] 不適切な制約推論が間違った結果を返します。
- [SPARK-25402][SQL] BooleanSimplificationでのnull処理。
- Avro データソースの固定
NotSerializableException
。
-
2018年9月11日
- [SPARK-25214][SS]
failOnDataLoss=false
時に v2 ソースが重複したレコードを返す可能性がある問題を修正 Kafka 。 - [SPARK-24987][SS] articlePartitionに新しいオフセットがない場合のKafkaコンシューマーリークを修正。
- フィルターの削減では、null 値を正しく処理する必要があります。
- [SPARK-25214][SS]
-
2018年8月28日
- Delta Lake の Delete コマンドで、条件が null と評価される行が誤って削除されるバグを修正しました。
-
2018年8月23日
- Deltaスナップショットの NoClassDefError を修正しました
- [SPARK-23935]mapEntryが
org.codehaus.commons.compiler.CompileException
をスローします。 - [SPARK-24957][SQL] 小数の平均とそれに続く集計が誤った結果を返します。 AVERAGE の誤った結果が返される可能性があります。 Average 演算子に追加された CAST は、Divide の結果がキャスト先の型と同じ場合、バイパスされます。
- 【スパーク-25081】スピルがメモリの割り当てに失敗した場合に、ShuffleExternalSorterが解放されたメモリページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーを引き起こす可能性のある Databricks Delta と PySpark の間の相互作用を修正しました。
- [スパーク-25114]2 つの単語間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正しました。
- [SPARK-25084]複数の列(括弧で囲む)の「配布方法」がcodegenの問題を引き起こす可能性がある。
- [SPARK-24934][SQL] インメモリパーティションプルーニングの上限/下限でサポートされているタイプを明示的に許可リストに登録します。 キャッシュされたデータに対するクエリ フィルターで複雑なデータ型を使用すると、Spark は常に空の結果セットを返します。 インメモリ統計ベースのプルーニングでは、複合型の上限/下限に null が設定されているため、正しくない結果が生成されます。 この修正は、複合型に対してメモリ内の統計ベースのプルーニングを使用しないことです。
- コマンドが部分的に成功した場合のシークレットマネージャーの編集を修正しました。
- Parquet リーダーの null 許容マップの問題を修正しました。
-
2018年8月2日
- Python に writeStream.table API を追加しました。
- Deltaチェックポイントに影響する問題を修正しました。
- [SPARK-24867][SQL] DataFrameWriterにAnalysisBarrierを追加します。 DataFrameWriter を使用して UDF で DataFrame を書き込む場合、SQL キャッシュは使用されません。 これは、AnalysisBarrier で行った変更によって引き起こされた回帰であり、すべての Analyzer ルールがべき等であるとは限らないためです。
mergeInto
コマンドで誤った結果が生成される可能性がある問題を修正しました。- Azure Data Lake Storage Gen1 へのアクセスの安定性が向上しました。
- [スパーク-24809]エグゼキューターでLongHashedRelationをシリアル化すると、データエラーが発生する可能性があります。
- [SPARK-24878][SQL] null を含むプリミティブ型の配列型の逆関数を修正。
-
2018年7月11日
- クエリ実行で、精度が異なる 10 進数列の集計で誤った結果が返される場合があるバグを修正しました。
- グループ化セットなどの高度な集計操作中にスローされる
NullPointerException
のバグを修正しました。
Databricks Runtime 4.1 ML (EoS)
「Databricks Runtime 4.1 ML (EoS)」を参照してください。
- 2018年7月31日
- Azure Synapse Analytics を ML Runtime 4.1 に追加しました
- 述語で使用されるパーティション列の名前が、テーブルのスキーマ内のその列の場合と異なる場合に、クエリ結果が正しくない可能性があったバグを修正しました。
- Spark SQL 実行エンジンに影響するバグを修正しました。
- コード生成に影響するバグを修正しました。
- Delta Lake に影響するバグ (
java.lang.NoClassDefFoundError
) を修正しました。 - Delta Lake でのエラー処理が改善されました。
- 32 文字以上の文字列列の統計をスキップするデータが正しく収集されないバグを修正しました。
Databricks Runtime 4.1 (EoS)
「Databricks Runtime 4.1 (EoS)」を参照してください。
-
2019年1月8日
- [スパーク-26366]ReplaceExceptWithFilter は NULL を False と見なす必要があります。
- Delta Lake が有効になっています。
-
2018年12月18日
- 【スパーク-25002】Avro: 出力レコードの名前空間を変更します。
- Join と Limit を使用する特定のクエリに影響する問題を修正しました。
- [スパーク-26307]Hive SerDe を使用してパーティション テーブルを INSERT するときの CTAS を修正しました。
- 1 回以上の再試行後に破損したファイルを無視するのは、
spark.sql.files.ignoreCorruptFiles
フラグまたはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合のみです。 - インターネットにアクセスできない環境でのPython Wheelsのインストールに影響する問題を修正しました。
- PySpark で DataFrame アクションが "接続が拒否されました" エラーで失敗する原因となっていた問題を修正しました。
- 特定の自己結合クエリに影響する問題を修正しました。
-
2018年11月20日
- [スパーク-17916]【スパーク-25241】nullValue が設定されている場合に空の文字列が null として解析される問題を修正しました。
- 左半結合/反結合を使用する特定の集計クエリに影響する問題を修正しました。
-
2018年11月6日
- [スパーク-25741]長い URL は Web UI で正しくレンダリングされません。
- [スパーク-25714]オプティマイザールールBooleanSimplificationのnull処理を修正しました。
-
2018年10月9日
- Delta テーブルでの実行中の
SHOW CREATE TABLE
の出力に影響するバグを修正しました。 Union
操作に影響するバグを修正しました。
- Delta テーブルでの実行中の
-
2018年9月25日
- [SPARK-25368][SQL] 不適切な制約推論が間違った結果を返します。
- [SPARK-25402][SQL] BooleanSimplificationでのnull処理。
- Avro データソースの固定
NotSerializableException
。
-
2018年9月11日
- [SPARK-25214][SS]
failOnDataLoss=false
時に v2 ソースが重複したレコードを返す可能性がある問題を修正 Kafka 。 - [SPARK-24987][SS] articlePartitionに新しいオフセットがない場合のKafkaコンシューマーリークを修正。
- フィルターの削減では、null 値を正しく処理する必要があります。
- [SPARK-25214][SS]
-
2018年8月28日
- Delta Lake の Delete コマンドで、条件が null と評価される行が誤って削除されるバグを修正しました。
- [SPARK-25084]複数の列(括弧で囲む)の「配布方法」がcodegenの問題を引き起こす可能性がある。
- [スパーク-25114]2 つの単語間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正しました。
-
2018年8月23日
- Deltaスナップショットの NoClassDefError を修正しました。
- [SPARK-24957][SQL] 小数の平均とそれに続く集計が誤った結果を返します。 AVERAGE の誤った結果が返される可能性があります。 Average 演算子に追加された CAST は、Divide の結果がキャスト先の型と同じ場合、バイパスされます。
- Parquet リーダーの null 許容マップの問題を修正しました。
- [SPARK-24934][SQL] インメモリパーティションプルーニングの上限/下限でサポートされているタイプを明示的に許可リストに登録します。 キャッシュされたデータに対するクエリ フィルターで複雑なデータ型を使用すると、Spark は常に空の結果セットを返します。 インメモリ統計ベースのプルーニングでは、複合型の上限/下限に null が設定されているため、正しくない結果が生成されます。 この修正は、複合型に対してメモリ内の統計ベースのプルーニングを使用しないことです。
- 【スパーク-25081】スピルがメモリの割り当てに失敗した場合に、ShuffleExternalSorterが解放されたメモリページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーを引き起こす可能性のある Databricks Delta と PySpark の間の相互作用を修正しました。
- コマンドが部分的に成功した場合のシークレットマネージャーの編集を修正しました
-
2018年8月2日
- [SPARK-24613][SQL] UDFのキャッシュが後続の依存キャッシュと一致しませんでした。 CacheManager での実行プランのコンパイル時に論理プランを AnalysisBarrier でラップし、プランが再度分析されるのを回避します。 これもSpark 2.3のリグレッションです。
- DateType データを書き込むためのタイムゾーン変換に影響する Synapse アナリティクス コネクタの問題を修正しました。
- Deltaチェックポイントに影響する問題を修正しました。
mergeInto
コマンドで誤った結果が生成される可能性がある問題を修正しました。- [SPARK-24867][SQL] DataFrameWriterにAnalysisBarrierを追加します。 DataFrameWriter を使用して UDF で DataFrame を書き込む場合、SQL キャッシュは使用されません。 これは、AnalysisBarrier で行った変更によって引き起こされた回帰であり、すべての Analyzer ルールがべき等であるとは限らないためです。
- [スパーク-24809]エグゼキューターでLongHashedRelationをシリアル化すると、データエラーが発生する可能性があります。
-
2018年7月11日
- クエリ実行で、精度が異なる 10 進数列の集計で誤った結果が返される場合があるバグを修正しました。
- グループ化セットなどの高度な集計操作中にスローされる
NullPointerException
のバグを修正しました。
-
2018年6月28日
- 述語で使用されるパーティション列の名前が、テーブルのスキーマ内のその列の場合と異なる場合に、クエリ結果が正しくない可能性があったバグを修正しました。
-
2018年5月29日
- Spark SQL 実行エンジンに影響するバグを修正しました。
- コード生成に影響するバグを修正しました。
- Delta Lake に影響するバグ (
java.lang.NoClassDefFoundError
) を修正しました。 - Delta Lake でのエラー処理が改善されました。
-
2018年5月15日
- 32 文字以上の文字列列の統計をスキップするデータが正しく収集されないバグを修正しました。
Databricks Runtime 4.0 (EoS)
「Databricks Runtime 4.0 (EoS)」を参照してください。
-
2018年11月6日
- [スパーク-25714]オプティマイザールールBooleanSimplificationのnull処理を修正しました。
-
2018年10月9日
Union
操作に影響するバグを修正しました。
-
2018年9月25日
- [SPARK-25368][SQL] 不適切な制約推論が間違った結果を返します。
- [SPARK-25402][SQL] BooleanSimplificationでのnull処理。
- Avro データソースの固定
NotSerializableException
。
-
2018年9月11日
- フィルターの削減では、null 値を正しく処理する必要があります。
-
2018年8月28日
- Delta Lake の Delete コマンドで、条件が null と評価される行が誤って削除されるバグを修正しました。
-
2018年8月23日
- Parquet リーダーの null 許容マップの問題を修正しました。
- コマンドが部分的に成功した場合のシークレットマネージャーの編集を修正しました
- 一時的な読み取りエラーを引き起こす可能性のある Databricks Delta と PySpark の間の相互作用を修正しました。
- 【スパーク-25081】スピルがメモリの割り当てに失敗した場合に、ShuffleExternalSorterが解放されたメモリページにアクセスする可能性があるバグを修正しました。
- [スパーク-25114]2 つの単語間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正しました。
-
2018年8月2日
- 【スパーク-24452】int add または multiple でオーバーフローが発生する可能性を回避します。
- [スパーク-24588]ストリーミング参加には、子からの HashClusteredPartitioning が必要です。
mergeInto
コマンドで誤った結果が生成される可能性がある問題を修正しました。- [SPARK-24867][SQL] DataFrameWriterにAnalysisBarrierを追加します。 DataFrameWriter を使用して UDF で DataFrame を書き込む場合、SQL キャッシュは使用されません。 これは、AnalysisBarrier で行った変更によって引き起こされた回帰であり、すべての Analyzer ルールがべき等であるとは限らないためです。
- [スパーク-24809]エグゼキューターでLongHashedRelationをシリアル化すると、データエラーが発生する可能性があります。
-
2018年6月28日
- 述語で使用されるパーティション列の名前が、テーブルのスキーマ内のその列の場合と異なる場合に、クエリ結果が正しくない可能性があったバグを修正しました。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
- Delta Lake でのエラー処理が改善されました。
-
2018年5月17日
- Databricks シークレット管理のバグ修正。
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシングに影響するバグを修正しました。
- Spark SQL の Null セーフな Equal に影響するバグを修正しました。
-
2018年4月24日
- Azure Data Lake Store へのアクセスの安定性を向上させるために、Azure Data Lake Store SDK を 2.0.11 から 2.2.8 にアップグレードしました。
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合に、パーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。- タスクのシリアル化に失敗する問題を修正しました。
- Delta Lake の安定性が向上しました。
-
2018年3月14日
- Delta Lake に書き込むときに不要なメタデータの更新を防ぎます。
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
Databricks Runtime 3.5 LTS (EoS)
「Databricks Runtime 3.5 LTS (EoS)」を参照してください。
-
2019年11月7日
- [SPARK-29743][SQL]サンプルでは、子のneedCopyResultがtrueの場合、needCopyResultをtrueに設定する必要があります
-
2019年10月8日
- Simba Apache Spark ODBC ドライバーが、結果のフェッチ中に接続エラー後に再接続して続行できるようにするためのサーバー側の変更(Simba Apache Spark ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
-
2019年9月10日
- [SPARK-28699][SQL] 再パーティションの場合、ShuffleExchangeExecの基数ソートの使用を無効にする
-
2019年4月9日
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSyncが永久にハングする原因となるバグを修正。
-
2019年2月12日
- Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
spark.network.crypto.enabled
true に設定されている場合に、大きな RPC エラー メッセージを送信すると、低レベルのネットワーク プロトコルが壊れる可能性がある問題を修正しました。
- Spark暗号化が有効になっている (HIPPA コンプライアンス機能) または が
-
2019年1月30日
- UDT を使用した
df.rdd.count()
が特定の場合に誤った回答を返す可能性がある問題を修正しました。
- UDT を使用した
-
2018年12月18日
- 1 回以上の再試行後に破損したファイルを無視するのは、
spark.sql.files.ignoreCorruptFiles
フラグまたはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合のみです。 - 特定の自己結合クエリに影響する問題を修正しました。
- 1 回以上の再試行後に破損したファイルを無視するのは、
-
2018年11月20日
- [スパーク-25816]ネストされたエクストラクターの属性解像度を修正しました。
-
2018年11月6日
- [スパーク-25714]オプティマイザールールBooleanSimplificationのnull処理を修正しました。
-
2018年10月9日
Union
操作に影響するバグを修正しました。
-
2018年9月25日
- [SPARK-25402][SQL] BooleanSimplificationでのnull処理。
- Avro データソースの固定
NotSerializableException
。
-
2018年9月11日
- フィルターの削減では、null 値を正しく処理する必要があります。
-
2018年8月28日
- Delta Lake の Delete コマンドで、条件が null と評価される行が誤って削除されるバグを修正しました。
- [スパーク-25114]2 つの単語間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正しました。
-
2018年8月23日
- [スパーク-24809]エグゼキューターでLongHashedRelationをシリアル化すると、データエラーが発生する可能性があります。
- Parquet リーダーの null 許容マップの問題を修正しました。
- 【スパーク-25081】スピルがメモリの割り当てに失敗した場合に、ShuffleExternalSorterが解放されたメモリページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーを引き起こす可能性のある Databricks Delta と PySpark の間の相互作用を修正しました。
-
2018年6月28日
- 述語で使用されるパーティション列の名前が、テーブルのスキーマ内のその列の場合と異なる場合に、クエリ結果が正しくない可能性があったバグを修正しました。
-
2018年6月28日
- 述語で使用されるパーティション列の名前が、テーブルのスキーマ内のその列の場合と異なる場合に、クエリ結果が正しくない可能性があったバグを修正しました。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
- Delta Lake でのエラー処理が改善されました。
-
2018年5月17日
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシングに影響するバグを修正しました。
- Spark SQL の Null セーフな Equal に影響するバグを修正しました。
- ストリーミング クエリの特定の集計に影響するバグを修正しました。
-
2018年4月24日
- Azure Data Lake Store へのアクセスの安定性を向上させるために、Azure Data Lake Store SDK を 2.0.11 から 2.2.8 にアップグレードしました。
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合に、パーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。- タスクのシリアル化に失敗する問題を修正しました。
-
2018年3月9日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
-
2018年3月1日
- 停止に時間がかかる可能性のあるストリームの処理効率が向上しました。
- Python のオートコンプリートに影響する問題を修正しました。
- Ubuntuのセキュリティパッチを適用しました。
- Python UDFs とウィンドウ関数を使用する特定のクエリに影響する問題を修正しました。
- テーブルアクセスコントロールが有効になっているクラスターでの UDFs の使用に影響する問題を修正しました。
-
2018年1月29日
- Azure Blob Storage に格納されているテーブルの操作に影響する問題を修正しました。
- 空の DataFrame での dropDuplicates 後の集計を修正しました。
Databricks Runtime 3.4 (EoS)
「Databricks Runtime 3.4 (EoS)」を参照してください。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
- Delta Lake でのエラー処理が改善されました。
-
2018年5月17日
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシングに影響するバグを修正しました。
- Spark SQL の Null セーフな Equal に影響するバグを修正しました。
-
2018年4月24日
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合に、パーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。
-
2018年3月9日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
-
2017年12月13日
- Scala の UDF に影響する問題を修正しました。
- DBFS以外のパスに格納されたデータソーステーブルでのData Skipping Indexの使用に影響する問題を修正しました。
-
2017年12月07日
- シャッフルの安定性が向上しました。
Databricks Runtime 3.3 (EoS)
「Databricks Runtime 3.3 (EoS)」を参照してください。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
-
2018年4月24日
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合に、パーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。
-
2018年3月12日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
-
2018年1月29日
- Scala の UDF に影響する問題を修正しました。
-
2017年10月11日
- シャッフルの安定性が向上しました。
Databricks Runtime 3.2 (EoS)
「Databricks Runtime 3.2 (EoS)」を参照してください。
-
2018年3月30日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
-
2017年9月13日
- Databricks ジョブでの
spark_submit_task
の使用に影響する問題を修正しました。
- Databricks ジョブでの
-
2017年9月6日
- 特定のウィンドウ機能のパフォーマンスに影響する問題を修正しました。
2.1.1-DB6 (EoS)
2.1.1-db6 クラスター イメージ (EoS)を参照してください。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
-
2018年3月30日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
2.1.1-DB4 (EoS)
2.1.1-db4 クラスター イメージ (EoS)を参照してください。
-
2018年5月31日
- Spark SQL 実行エンジンに影響するバグを修正しました。
-
2018年3月30日
- まれに、一部の出力ファイルが失われる可能性のある競合状態によって引き起こされる問題を修正しました。
サポートされていない Databricks Runtime リリース
元のリリースノートについては、小見出しの下のリンクをクリックしてください。