【发布时间】:2019-01-18 12:10:40
【问题描述】:
我通过输入 44 个不同的关键字提取了推文,输出在一个总共包含 40 万条推文的文件中。输出文件包含包含相关关键字的推文。如何创建一个单独的 ID 列,其中包含该推文中存在的关键字?
例如:推文是:
安得拉邦是对妇女犯罪的最高州
这里的关键词是“针对女性的犯罪”
我想创建一个列,将关键字“针对女性的犯罪”分配给推文,准确地说是一种 ID 列。
#input column 1
Tweet<-("Andhra Pradesh is the highest state with crimes against women")
#expected output column 2 beside the Tweet column
Keyword<-("crimes against women")
编辑:我不想提取推文的任何部分,我只想能够在一个新列中为推文分配它包含的关键字,这样它将帮助我根据这个关键字分离推文.
【问题讨论】:
-
你有想要从推文中提取的关键字列表吗?
-
是的,我有关键字列表——确切地说是 44 个。我首先使用关键字来提取推文。
-
哦,对不起。我以为这就是你要找的。我看错了。让我重新打开你的问题
标签: r nlp uniqueidentifier