【发布时间】:2022-03-11 03:11:51
【问题描述】:
我 99% 确定我在此网站上的 hxs.select 发生了什么事。我无法提取任何东西。当我运行以下代码时,我没有收到任何错误反馈。 title 或 link 不会被填充。有什么帮助吗?
def parse(self, response):
self.log("\n\n\n We got data! \n\n\n")
hxs = HtmlXPathSelector(response)
sites = hxs.select('//div[@class=\'footer\']')
items = []
for site in sites:
item = CarrierItem()
item['title'] = site.select('.//a/text()').extract()
item['link'] = site.select('.//a/@href').extract()
items.append(item)
return items
有没有办法调试这个?我还尝试使用带有 url 的 scrapy shell 命令,但是当我在 shell 中输入 view(response) 时,它只返回 True 并打开一个文本文件而不是我的 Web 浏览器。
【问题讨论】:
-
我的网站根本没有加载。
response.body长什么样子? -
您可以随时添加
print sites并查看抓取过程中打印的内容。 -
此站点是我们的内部网,因此您将无法访问它。如果我输入 response.body 我确实会取回 xml 样式表(我无法发布太多字符)>>> response.body '\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n \n \n \n
\n 登录 \n \n \n 链接 > -
我在代码中添加了打印站点,但没有任何反应,我在 cmd 提示符中看到的唯一区别是它有一个空括号 []
标签: python web-scraping scrapy