【问题标题】:why <div class=\"gn_topmenulist\"> ? what is the \为什么 <div class=\"gn_topmenulist\"> ?是什么 \
【发布时间】:2017-05-20 18:50:38
【问题描述】:

背景是我用scrapy爬了weibo.com,但是我发现html爬取的标签中包含'\" 看起来像标题:,这使得我无法使用xpath获取信息,所以为什么\ 出现。

【问题讨论】:

  • 而不是图像,编辑您的问题并按 CTRL + M 并将您的代码添加到问题中。

标签: python html scrapy weibo


【解决方案1】:

用简单的英语:字符串文字可以用匹配的单引号 (') 或双引号 (") 括起来。它们也可以用三个单引号或双引号组成的匹配组括起来(这些通常称为三引号字符串)。反斜杠 (\) 字符用于转义具有特殊含义的字符,例如换行符、反斜杠本身或引号字符。

Python参考手册:String literals

【讨论】:

  • 好的,我明白了,但是在抓取的 html 中,有时 " 出现单个,有时带有 \ ,例如:
  • @XDMonkey 你不应该担心转义字符,忽略它。
【解决方案2】:

反斜杠用于转义引号,因为否则第一个引号将结束字符串,从而结束输出,因此其余的可能不会出现,或者如果您在 a 中使用输出会中断程序。

【讨论】:

  • 但是在同一个html文件中,有时会出现,有时不会,为什么?我应该怎么写 xpath ,我什至找不到一些深层标签, / 是不是原因?
  • 请注意,第一个 / 是指向 favicon.ico 的 URL 的一部分,第二个 / 表示自闭合标签。这些都不是转义字符。
猜你喜欢
相关资源
最近更新 更多
热门标签