正規表現抽出
指定された文字列列から、Java 正規表現regexpに一致する特定のグループを抽出します。正規表現が一致しなかった場合、または指定されたグループが一致しなかった場合は、空の文字列が返されます。
対応する Databricks SQL 関数については、 regexp_extract関数を参照してください。
構文
Python
from pyspark.databricks.sql import functions as dbf
dbf.regexp_extract(str=<str>, pattern=<pattern>, idx=<idx>)
パラメーター
パラメーター | Type | 説明 |
|---|---|---|
|
| 取り組むターゲットカラム。 |
|
| 適用する正規表現パターン。 |
|
| 一致したグループ ID。 |
例
Python
from pyspark.databricks.sql import functions as dbf
df = spark.createDataFrame([('100-200',)], ['str'])
df.select('*', dbf.regexp_extract('str', r'(\d+)-(\d+)', 1)).show()
df = spark.createDataFrame([('foo',)], ['str'])
df.select('*', dbf.regexp_extract('str', r'(\d+)', 1)).show()
df = spark.createDataFrame([('aaaac',)], ['str'])
df.select('*', dbf.regexp_extract(dbf.col('str'), '(a+)(b)?(c)', 2)).show()