【发布时间】:2016-03-21 22:05:21
【问题描述】:
我想查找字符向量中的所有单词,但我想假设单词也可以用标点符号分隔,而不仅仅是空格。
我总是可以使用s <- strsplit(x, " ")[[1]] 之类的方法来将所有单词用空格分隔,但如果它们被其他标点符号分隔,而用户只是忘记包含空格怎么办?
我相信我需要编写某种正则表达式来只匹配单词,而忽略标点符号。
编辑:
我只是想将我的字符串拆分为单词。如果我有 I,love pizza-because/it tastes.good 之类的东西,我想得到所有单词,意思是 "I", "love", "pizza", "because", "it", "tastes", "good"。正如我告诉你的,如果单词只是用空格分隔,那很容易,但是如果它们用不同的标点符号分隔呢?
我的意思是我总是可以使用str_replace_all(x, "[[:punct:]]", " ")之类的东西,然后用空格分隔它们,但我不想依赖一些外部包,也不想破坏原始字符串形式。
【问题讨论】:
-
请提供一些示例数据和您期望的解决方案。
-
@JonathanCarroll 请检查编辑。
标签: r