【问题标题】:Python Web ScriptingPython 网页脚本
【发布时间】:2013-09-11 17:51:07
【问题描述】:

我以前想为一些网站这样做,但不知道从哪里开始。不过这一次我很坚决。我说的是我们抓取网站并提取所需数据的脚本。我的目标是:基本上我必须在 12 月参加工作面试。这个网站 (http://www.geeksforgeeks.org/) 包含大量以前采访的问题(如 http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/http://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/)。每个标题都有单词“set”和一个数字。跟踪我做了什么和没有做什么是很麻烦的。所以我想从这些页面中提取问题并将它们放在带有标题的pdf中。如何使用 curl、regex 和 Scrapy 做到这一点?我在 C/C++/Java 方面处于中级水平,但对 Python 仅有初级水平。任何帮助深表感谢。还请指出您所知道的任何此类脚本。我想自己做这件事。只需要一个起点和一些指导。谢谢。

【问题讨论】:

    标签: python regex web-crawler


    【解决方案1】:

    如果您只是一个起点,请尝试scrapy 一个用于 python 的屏幕抓取库。我建议您使用requests 库来发出请求。这是迄今为止最简单的选择(不会断电)。

    另外,不要尝试使用正则表达式解析 html 或 xml。只是不要。使用可用的优秀库之一(beautifulsoup 或 lxml,或带有 beautifulsoup 后端的 lxml 是最受欢迎的,但还有其他)。

    【讨论】:

    • 谢谢。我还需要手动收集我希望我的爬虫抓取的所有链接吗?
    • @user1425223 除非……他们有来源。我不确定你还能期待什么。您可能可以自动化该收集过程。
    最近更新 更多