如何使用 Python 抓取特定的 ASP.NET 页面？

【问题标题】：How to crawl specific ASP.NET pages using Python?如何使用 Python 抓取特定的 ASP.NET 页面？
【发布时间】：2015-08-16 15:48:14
【问题描述】：

我想爬取一个 ASP.NET 网站，但 url 都是一样的，如何使用 python 爬取特定页面？

这是我要抓取的网站： http://www.fveconstruction.ch/index.htm

（我正在使用 beautifulsoup、urllib 和 python 3）

我应该获取哪些信息来区分一个页面？

【问题讨论】：

【解决方案1】：

如果目标网站只是单页应用，则无法抓取。作为一种解决方法，当您手动浏览网站并要求爬虫使用这些请求时，您可以看到实际发出的请求（GET、POST 等）。或者，教你的爬虫至少执行目标网站上的 javascript。

网站需要更改为易于抓取，他们需要为每个需要索引的页面或需要索引的页面提供合理的非 AJAX 版本。或者使用类似 pushState 在 angularJs 中所做的事情。

【讨论】：