【发布时间】:2013-05-08 12:24:24
【问题描述】:
我正在使用scrapy从这个网站上抓取数据:http://www.nuforc.org/webreports/ndxevent.html
我需要将日期与 UFO 目击次数分开,是的,令人兴奋!
这是我正在抓取的示例
<TR VALIGN=TOP>
<TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD>
<TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000>108</TD>
所以在本例中,日期 = 03/2013,计数 = 108
现在日期不是问题,因为我可以做到
hxs.select('//tbody//td//font//a//text()').extract()
获取“a”标签内的文本。
但是有没有办法从具有 ALIGN=RIGHT 样式的 td 元素中获取文本。 我查看了文档和选择器,但我很困惑
hxs.select('//tbody[contains(td, "ALIGN")]').extract()
?
【问题讨论】:
标签: python web-crawler scrapy