【发布时间】:2013-08-24 06:26:52
【问题描述】:
我的解析是这样的:
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//tr/td")
items = []
for titles in titles:
item = MyItem()
item['title'] = titles.select('h3/a/text()').extract()
items.append(item)
return items
为什么会这样输出json:
[{"title": ["random title #1"]},
{"title": ["random title #2"]}]
【问题讨论】:
-
这是有效的 JSON。你从哪里得到这个输出?发布抓取的所有输出。
-
我通过 cmdline 执行此操作:scrapy crawl myspider -o items.json -t json - 我猜我不明白 [] 来自哪里。应该是纯文本项。
-
@agf:Scrapy 将列表和生成器解包为单个项目。
-
好的,我使用了来自stackoverflow.com/a/11870713/1002493 的快速修复及其工作。有什么更好的解决方案?