【问题标题】:How to scrape a web forum using Python如何使用 Python 抓取网络论坛
【发布时间】:2018-12-06 02:11:34
【问题描述】:

我想知道创建一个 python 程序的最佳方法,该程序定期抓取一个有许多线程的网络论坛,每个线程都有来自不同用户的许多帖子。我不是在询问要使用的包,我想要解决方案的高级架构。

非常感谢您推荐涉及抓取大型网络论坛的帖子。

【问题讨论】:

标签: python web-scraping beautifulsoup scrapy web-crawler


【解决方案1】:

有很多方法可以做到这一点。但请记住几件事: 1.您尝试提取/抓取的内容应该是页面源代码的一部分,而不是由javascript或其他类似方式生成的。 2.如果认证过程复杂,你可能不得不绞尽脑汁。对于这种情况,最好在 Selenium 上使用 PhantomJS。

来到您可以使用的工具: 1.发送 HTTP GET 和 POST 请求可以使用 Python 的 Requests 模块。 2.该模块具有下载页面源代码的功能。 3.要解析源代码并获取您的内容,您可以使用 minidom 解析器或 BeautifulSoup。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-07-22
    • 1970-01-01
    • 2017-02-23
    • 2018-05-19
    • 2014-10-28
    • 2014-03-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多