【问题标题】:How can I use R Regular Expressions to catch a Hebrew word?如何使用 R 正则表达式来捕捉希伯来语单词?
【发布时间】:2020-04-12 05:40:24
【问题描述】:

我一直在努力抓住这个词 עונה 加上字符串中的后续数字,例如

כל הילדים אוכלים、עונה 2 、פרק 8-לזניית ירקות וסלמון בדבש

在 Regex101.com 上演示它非常简单,使用 עונה(\s+\d+|\d+),但使用 R 时我发现是空的。

str<-"כל הילדים אוכלים, עונה 2 , פרק 8-לזניית ירקות וסלמון בדבש"
exp<-"עונה(\\s+\\d+|\\d+)"
str_extract_all(str,exp)

Output:
[[1]]
character(0)

【问题讨论】:

  • 我收到str_extract_all(str, exp)[[1]]# [1] "עונה 2"时请检查您的区域设置
  • Sys.setlocale("LC_ALL", "Hebrew")
  • @akrun 如果你成功了,你能把你的区域设置发给我们吗?
  • 我的是 utf-8。 Sys.getlocale()# [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

标签: r regex hebrew


【解决方案1】:

你可以使用这个正则表达式:

/[\u0590-\u05FF]/*

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-08
    • 1970-01-01
    • 2014-09-24
    • 1970-01-01
    相关资源
    最近更新 更多