【发布时间】:2017-06-16 17:21:59
【问题描述】:
我一直在尝试将包含越南语文本的字符串拆分为单个单词。例如:
s = "Chào bạn, mình tên Đạt."
会被拆分成一个数组:
arr = {"Chào", "bạn", "mình", "tên", "Đạt"}
通常用英文,这只需 1 行即可轻松解决:
arr = s.split("\\W+");
但是由于越南语中有很多非字母的字母,仅靠一行是无法解决的。所以问题是:是否有任何正则表达式可以替换这个“\W+”(我对正则表达式不是很好)?如果没有,有没有其他方法可以解决?
【问题讨论】:
-
用
"\\s"分割whitespaces怎么样?根据需要加上标点符号。 -
这将导致 {"Chào", "bạn,", "mình", "tên", "Đạt."} 包含标点符号