【发布时间】:2018-08-07 11:29:55
【问题描述】:
我有一个 .csv 文件,其中有一列包含从网络上抓取的书籍描述,我将其导入 R 以进行进一步分析。我的目标是从R中的这个专栏中提取主角的年龄,所以我想象的是:
- 使用正则表达式匹配“age”和“-year-old”等字符串
- 将包含这些字符串的句子复制到一个新列中(这样我就可以确保该句子不是,例如“In the middle age 50 people living in xy”
- 从该列中提取数字(如果可能,还包括一些数字单词)到一个新列中。
结果表(或者可能是 data.frame)希望看起来像这样
|Description |Sentence |Age
|YY is a novel by Mr. X |The 12-year-old boy| 12
|about a boy. The 12-year|is named Dave. |
|-old boy is named Dave..| |
如果你能帮上忙,那就太好了,因为我的 R 技能仍然非常有限,而且我还没有找到解决这个问题的方法!
【问题讨论】:
-
也许stackoverflow.com/questions/26081820/… 的回答会有所帮助。
标签: r regex string stringr text-extraction