Python 网页脚本答案

【问题标题】：Python Web ScriptingPython 网页脚本
【发布时间】：2013-09-11 17:51:07
【问题描述】：

我以前想为一些网站这样做，但不知道从哪里开始。不过这一次我很坚决。我说的是我们抓取网站并提取所需数据的脚本。我的目标是：基本上我必须在 12 月参加工作面试。这个网站 (http://www.geeksforgeeks.org/) 包含大量以前采访的问题（如 http://www.geeksforgeeks.org/amazon-interview-set-42-on-campus/ 和 http://www.geeksforgeeks.org/adobe-interview-set-6-campus-mts-1/）。每个标题都有单词“set”和一个数字。跟踪我做了什么和没有做什么是很麻烦的。所以我想从这些页面中提取问题并将它们放在带有标题的pdf中。如何使用 curl、regex 和 Scrapy 做到这一点？我在 C/C++/Java 方面处于中级水平，但对 Python 仅有初级水平。任何帮助深表感谢。还请指出您所知道的任何此类脚本。我想自己做这件事。只需要一个起点和一些指导。谢谢。

【问题讨论】：

标签： python regex web-crawler

【解决方案1】：

如果您只是一个起点，请尝试scrapy 一个用于 python 的屏幕抓取库。我建议您使用requests 库来发出请求。这是迄今为止最简单的选择（不会断电）。

另外，不要尝试使用正则表达式解析 html 或 xml。只是不要。使用可用的优秀库之一（beautifulsoup 或 lxml，或带有 beautifulsoup 后端的 lxml 是最受欢迎的，但还有其他）。

【讨论】：

谢谢。我还需要手动收集我希望我的爬虫抓取的所有链接吗？
@user1425223 除非……他们有来源。我不确定你还能期待什么。您可能可以自动化该收集过程。