如何使用 R 正则表达式来捕捉希伯来语单词？答案

【问题标题】：How can I use R Regular Expressions to catch a Hebrew word?如何使用 R 正则表达式来捕捉希伯来语单词？
【发布时间】：2020-04-12 05:40:24
【问题描述】：

我一直在努力抓住这个词 עונה 加上字符串中的后续数字，例如

כל הילדים אוכלים、עונה 2 、פרק 8-לזניית ירקות וסלמון בדבש

在 Regex101.com 上演示它非常简单，使用 עונה(\s+\d+|\d+)，但使用 R 时我发现是空的。

str<-"כל הילדים אוכלים, עונה 2 , פרק 8-לזניית ירקות וסלמון בדבש"
exp<-"עונה(\\s+\\d+|\\d+)"
str_extract_all(str,exp)

Output:
[[1]]
character(0)

【问题讨论】：

我收到str_extract_all(str, exp)[[1]]# [1] "עונה 2"时请检查您的区域设置
Sys.setlocale("LC_ALL", "Hebrew")
@akrun 如果你成功了，你能把你的区域设置发给我们吗？
עונה(\s*\d+)
我的是 utf-8。 Sys.getlocale()# [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

【解决方案1】：

你可以使用这个正则表达式：

/[\u0590-\u05FF]/*

【讨论】：