【问题标题】:How to crawl specific ASP.NET pages using Python?如何使用 Python 抓取特定的 ASP.NET 页面?
【发布时间】:2015-08-16 15:48:14
【问题描述】:

我想爬取一个 ASP.NET 网站,但 url 都是一样的,如何使用 python 爬取特定页面?

这是我要抓取的网站: http://www.fveconstruction.ch/index.htm

(我正在使用 beautifulsoup、urllib 和 python 3)

我应该获取哪些信息来区分一个页面?

【问题讨论】:

    标签: python asp.net web-crawler


    【解决方案1】:

    如果目标网站只是单页应用,则无法抓取。作为一种解决方法,当您手动浏览网站并要求爬虫使用这些请求时,您可以看到实际发出的请求(GET、POST 等)。或者,教你的爬虫至少执行目标网站上的 javascript。

    网站需要更改为易于抓取,他们需要为每个需要索引的页面或需要索引的页面提供合理的非 AJAX 版本。或者使用类似 pushState 在 angularJs 中所做的事情。

    【讨论】:

      猜你喜欢
      • 2018-05-08
      • 1970-01-01
      • 2021-07-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-06-07
      • 2016-11-27
      • 2018-12-25
      相关资源
      最近更新 更多