【发布时间】:2013-08-09 18:42:35
【问题描述】:
尝试使用 twitteR 库和searchTwitter 函数进行一些基本的情绪分析。假设我正在搜索特定于“三星”的推文。我可以使用以下命令检索推文:
samsung_t = searchTwitter("#samsung", n=1500, lang="en",cainfo="cacert.pem")
我知道这将返回所有包含井号标签#samsung 的推文。但是,如果我想搜索其中包含“samsung”的推文:我给出相同的命令但没有“#”
samsung_t = searchTwitter("samsung", n=1500, lang="en",cainfo="cacert.pem")
然而,这将返回所有包含“三星”一词的推文,包括句柄。例如:它将返回一条推文:“@I_Love_Samsung:我喜欢 R 编程”,这与我的标准完全无关。如果我想对“三星手机”进行情感分析,恐怕这样的数据会扭曲结果。
有没有办法强制 searchTwitter 只查看“推文”而不查看“句柄”?
非常感谢。
【问题讨论】:
-
您可以查看 Pablo Barbera 的推特流 API 的 R 包。 pablobarbera.com/blog/archives/1.html。或者,您可以随时过滤掉这些推文。
-
感谢您的链接。这个包看起来很有前途。但是没有得到一件事-所以使用它,我们只能在某个时间点之后下载推文(例如,下载最后 5 分钟内的所有推文),而不是从一开始就下载所有符合条件的推文?跨度>