【发布时间】:2017-09-28 07:07:02
【问题描述】:
我目前正在尝试使用 selenium-python 以指定的抓取深度在整个网站中进行抓取。我从Google 开始,并考虑通过爬取并同时开发代码来前进。
它的工作方式是:如果页面是 'www.google.com' 并且其中有 15 个链接,一旦获取所有链接,它就会存储在一个字典中,其中 'www.google.com' 作为键和 15 个链接的列表作为值。然后从对应的字典中取出 15 个链接中的每一个,并以 递归 方式继续爬取。
这样做的问题是它会在页面上找到的每个链接的 href 属性方面向前移动。但不是每个链接都有 href 属性。
例如:当它爬到My Account Page 时,它的页脚中有帮助和反馈,它的outerHTML 为
<span role="button" tabindex="0" class="fK1S1c" jsname="ngKiOe">Help and Feedback</span>。
所以我不确定的是——在这种情况下可以做什么,因为它没有链接,但会打开一个模式窗口/对话框或排序。
【问题讨论】:
标签: python selenium web-crawler