【发布时间】:2018-05-05 14:30:38
【问题描述】:
对于一个项目,我希望能够创建一个包含某些特定符号字符串的推文数据集。由于我还想尽可能回到过去,我尝试使用此处提到的 GetOldTweets 脚本 (https://github.com/Jefferson-Henrique/GetOldTweets-python):https://stackoverflow.com/a/35077920/5858873。
问题是,它无法提取包含符号的推文作为输入。事实上,人们甚至无法直接在 Twitter 上搜索包含所需符号的任何推文。
为了更清楚地解释问题,请考虑以下示例案例。我想提取所有包含字符串 '!!!' 的推文在过去两年内。
最好的方法是什么(如果这可行的话)?
【问题讨论】:
-
一种方法是获取数据(推文)并为您的符号手动解析它们(这会很慢,但会完成工作)。另一个是查看 Twitter 的 API,看看它是否支持搜索功能。一个快速的谷歌产生this。
-
@MooingRawr 但是,在这种情况下,我必须先提取所有推文(这是不可能的)。另外,我认为 Twitter API 不允许搜索仅包含符号的推文。
-
如果你想成为官方的 it looks like it will cost you 如果 Twitter 不支持符号搜索而他们允许正常搜索,我会感到非常惊讶......
-
我觉得这很重要,因为它将帮助未来的海报(这些都是相关的澄清!)。如果短语包含符号,您引用的内容有效,但不适用于包含完全由符号 组成的字符串。所以,例如,“可口可乐!”查询会产生结果,但不会产生“!!!”。
-
没问题。据我所知,Streaming API 的问题在于您只能访问最新的推文。
标签: python twitter web-scraping data-mining