【发布时间】:2016-08-18 17:06:42
【问题描述】:
我正在尝试从旧的 html 页面获取数据。
Python3 Debian Scrapy 1.1
我在这里看到了几个我正在尝试做的例子,但由于我不明白的原因,我无法重现我的结果:
我想要获取的信息是此处的联系人姓名 (John Doe)
<p><strong>Contact: <a href="http://www.example.com/t/search-title-Proprietor.html" style="color:#259cd5">Proprietor</a> John Doe</strong></p>
我可以用 Scrapy 返回:
Contact: [u'Contact: ', u' John Doe']
唯一的问题是 "Contact:" 部分写在我的 CSV 文件中...
Contact: , John Doe
我尝试了一堆正则表达式并使用变量,但我总是遇到另一个问题。
这是我用来获取数据的:
item['Contact'] = response.xpath('//*[@id="main-contain"]/div[2]/div/div[6]/p[10]/strong/text()').extract()
我也尝试了 .replace() 但我最终得到了
[u'', u' John Doe']
【问题讨论】:
标签: python-3.x web-scraping scrapy