【发布时间】:2011-06-05 14:54:37
【问题描述】:
全部。 我有一个巨大的 html 文件,其中包含如下标签:
<h3 class="r">
<a href="http://en.wikipedia.org/wiki/Digital_Signature_Algorithm" class=l onmousedown="return clk(this.href,'','','','6','','0CDEQFjACOAM')">
我需要用python从这个页面中提取所有的url。
在循环中:
一一查找
<h3 class="r">的出现。提取网址
http://xrayoptics.by.ru/database/misc/goog2text.py我需要重新编写这个脚本来提取在google上找到的所有链接。
我怎样才能做到这一点? 谢谢。
【问题讨论】:
-
如果你现在说这是解析谷歌搜索结果,我会使用谷歌的custom search api。是的,你每天只能免费做大约 100 个,但如果谷歌检测到你正在自动查询它们,谷歌也会要求你输入验证码。