【问题标题】:do crawlers decode html entities?爬虫会解码 html 实体吗?
【发布时间】:2023-10-06 21:45:01
【问题描述】:

我想知道爬虫和机器人是否可以解码 html 实体,例如在我的 html 中我有类似的东西:

salariés

他们是这样读的吗?或类似的东西:

salariés

哪个选项更适合 SEO?

【问题讨论】:

  • 如果针对搜索引擎优化您的网站是您的目标,那么您担心的是错误的事情。
  • webmasters.stackexchange.com 的更好问题?

标签: html seo entities web-crawler


【解决方案1】:

我想说您可以放心地假设 HTML 实体已正确解码。它们是有效的 HTML,不解码它们的爬虫最终会得到大量损坏的内容。

【讨论】:

  • 很可能,任何不那么现代的爬虫都会忽略他们无论如何都不理解的东西。否则他们永远不会完成任何事情。
【解决方案2】:

大多数爬虫会解码您的实体,因为它们需要纯文本来计算数据和提取信息。

如果您想帮助他们,请使用适当的编码(如 utf8)、良好的字符集元,并避免使用 html 实体。

【讨论】: