【发布时间】:2012-11-15 04:38:58
【问题描述】:
我正在尝试编写一个脚本来抓取一个网站,并且正在使用这个 (http://www.theericwang.com/scripts/eBayRead.py)。
然而,我想用它来抓取除 ebay 以外的网站,并根据我的需要进行定制。
我对 python 还很陌生,并且经验有限。
我不确定这条线能实现什么。
for url, title in re.findall(r'href="([^"]+).*class="vip" title=\'([^\']+)', lines):
有人可以指点一下吗?
如果我将它移植到其他网站,还有什么需要考虑的吗?
【问题讨论】:
-
如果您熟悉 jquery 选择器 API,您可能会发现 pyquery 很有趣。
标签: python regex screen-scraping