【发布时间】:2015-12-15 22:47:42
【问题描述】:
我有一列有很多文字,我只想保留 [start section id="20107"] 和 [end section id="20107"] 之间的文字其余不重要。
这里是原始数据
[start section id="20106"]
California, Death Valley
[end section id="20106"]
[start section id="20107"]
1. Apple
2. Orange
3. Bannana
4. Kiwi
5. Grapes
6. Strawberry
[end section id="20107"]
[start section id="20108"]
Jose has worked on these farms , currently he is in Florida picking tomatos
[end section id="20108"]
我想要做的只是在开始部分 id="20107" 和结束部分 id="20107" 之间保留文本
[start section id="20107"]
1. Apple
2. Orange
3. Bannana
4. Kiwi
5. Grapes
6. Strawberry
[end section id="20107"]
非常感谢有关此主题的任何帮助。
【问题讨论】:
-
你自己尝试过什么?以下是如何创建reproducible example
-
@Heroka,我试过
testdf = filter(org_df, grepl('[start section id="20107"]|[end section id="20107"]', col1)),我没有得到正确的结果,它显示了原始列并且没有去掉这些开始和结束条件之外的文本 -
请提供一些示例数据并将您尝试过的内容添加到您的答案中。并且 grepl 为整个字符串中的匹配返回一串布尔值。您可能需要 gsub。
-
@Heroka,酷,做到了
-
您的代码示例不是典型的 R 语法。使用
dput(mydata)发布实际代码而不是解释性文本副本。