【发布时间】:2017-04-30 23:59:05
【问题描述】:
我想在具有不同结构的多个网站上进行网络爬网以查找特定数据。但是,我有一些关键字可以帮助我找到我想要的东西。更清楚地说,我想从一所大学的网站中提取教授姓名列表,并将其循环到给定的大学列表中。此处的关键字可以是他们姓名前的“Professor”或“Prof”或“Dr”一词,以及姓名后的电子邮件。但是,处理每个网站具有的不同 html 结构有点挑战性。
你有什么建议?
【问题讨论】:
标签: html web-scraping scrapy web-crawler jsoup