【问题标题】:how to write crawler to crawl data from instagram ?如何编写爬虫从 instagram 爬取数据?
【发布时间】:2016-08-29 14:38:15
【问题描述】:

有没有什么方法可以抓取/监控 instagram 数据以用于研究目的?

我尝试了官方 API,但它只能在沙盒中工作,无法像追随者那样抓取真实信息。我需要监控某些帐户,还需要扩大关注者/关注者的范围并跟踪他们的行为(例如点赞数的进度)

所以任何人都可以有一些建议吗?或者可以给我一些有关相关抓取任务的参考资料?

【问题讨论】:

    标签: web-scraping web-crawler instagram instagram-api scrapy-spider


    【解决方案1】:

    也许您可以尝试使用漂亮的汤库并阅读 Ryan Mitchell 的这本书:Web Scraping with Python。基本上你应该了解 DOM、正则表达式以及如何在算法上逐页跳转,这样你就可以开始了。

    在开始之前还要检查网站的 ToS,并知道他们可能有一些反对抓取的指南/规则,因为现在所有网站都有 robot.txt 文件,指定允许您抓取的方式/内容

    【讨论】:

    • 他不是专门找instagram的吗?
    • 感谢您的回复!专门针对 instagram 将是完美的,但一般建议也将不胜感激! :-) 我以前有爬取网站的经验,但我不熟悉模拟日志记录的东西。我认为高级部分的章节会有所帮助。
    猜你喜欢
    • 2010-09-11
    • 1970-01-01
    • 2012-08-08
    • 2023-03-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多