メインコンテンツまでスキップ

正規表現抽出

指定された文字列列から、Java 正規表現regexpに一致する特定のグループを抽出します。正規表現が一致しなかった場合、または指定されたグループが一致しなかった場合は、空の文字列が返されます。

対応する Databricks SQL 関数については、 regexp_extract関数を参照してください。

構文

Python
from pyspark.databricks.sql import functions as dbf

dbf.regexp_extract(str=<str>, pattern=<pattern>, idx=<idx>)

パラメーター

パラメーター

Type

説明

str

pyspark.sql.Column または str

取り組むターゲットカラム。

pattern

str

適用する正規表現パターン。

idx

int

一致したグループ ID。

Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('100-200',)], ['str'])
df.select('*', dbf.regexp_extract('str', r'(\d+)-(\d+)', 1)).show()
df = spark.createDataFrame([('foo',)], ['str'])
df.select('*', dbf.regexp_extract('str', r'(\d+)', 1)).show()
df = spark.createDataFrame([('aaaac',)], ['str'])
df.select('*', dbf.regexp_extract(dbf.col('str'), '(a+)(b)?(c)', 2)).show()