【发布时间】:2021-06-06 14:07:56
【问题描述】:
我正在使用 REGEXP 过滤一个包含 10 行的数据集,如下所示:
ID Product
1 "VENLAFAXINE HCL CAP ER 24HR 37.5 MG (BASE EQUIVALENT)"
2 "MINOXIDIL POWDER"
3 "MENTHOL LOZENGE 10 MG"
4 "ZINC CHLORIDE GRANULES"
5 "CLOPIDOGREL BISULFATE TAB 75 MG (BASE EQUIV)"
6 "METHYLPREDNISOLONE TAB THERAPY PACK 4 MG (21)"
7 "DEXAMETHASONE TAB THERAPY PACK 1.5 MG (7)"
8 "METHYLPREDNISOLONE DOSE P (16)"
9 "MILLIPRED DP (13)"
10 "ZONACORT 7 DAY"
然后让它看起来像
ID Product
6 "METHYLPREDNISOLONE TAB THERAPY PACK 4 MG (21)"
7 "DEXAMETHASONE TAB THERAPY PACK 1.5 MG (7)"
8 "METHYLPREDNISOLONE DOSE P (16)"
9 "MILLIPRED DP (13)"
实际上,我想根据最后一个字符是否是括号内的数字来过滤数据集。我尝试使用无济于事:
SELECT ID, Product
FROM DAT
WHERE product like '%[(][0-9][)]';
【问题讨论】:
-
Like不使用正则表达式。 -
问题是关于
regexp的使用,并且该标签已由 OP 添加。 -
顺便说一句,为什么这个标签是
r? -
@mck 我的错!我习惯在
r中提问,但这是一个普遍的问题 -
我已经删除了
r标签以避免混淆。由于这是在数据块上,您使用的是 Spark SQL 吗?
标签: sql regex apache-spark apache-spark-sql