【发布时间】:2015-08-16 15:48:14
【问题描述】:
我想爬取一个 ASP.NET 网站,但 url 都是一样的,如何使用 python 爬取特定页面?
这是我要抓取的网站: http://www.fveconstruction.ch/index.htm
(我正在使用 beautifulsoup、urllib 和 python 3)
我应该获取哪些信息来区分一个页面?
【问题讨论】:
标签: python asp.net web-crawler
我想爬取一个 ASP.NET 网站,但 url 都是一样的,如何使用 python 爬取特定页面?
这是我要抓取的网站: http://www.fveconstruction.ch/index.htm
(我正在使用 beautifulsoup、urllib 和 python 3)
我应该获取哪些信息来区分一个页面?
【问题讨论】:
标签: python asp.net web-crawler
如果目标网站只是单页应用,则无法抓取。作为一种解决方法,当您手动浏览网站并要求爬虫使用这些请求时,您可以看到实际发出的请求(GET、POST 等)。或者,教你的爬虫至少执行目标网站上的 javascript。
网站需要更改为易于抓取,他们需要为每个需要索引的页面或需要索引的页面提供合理的非 AJAX 版本。或者使用类似 pushState 在 angularJs 中所做的事情。
【讨论】: