【问题标题】:hide text or div from crawlers [closed]对爬虫隐藏文本或 div
【发布时间】:2011-11-12 15:30:06
【问题描述】:

假设我有一个文本

<span class="hide">for real</span><h2 id='show'>Obama is rocking the house</h2>
<span class="hide">not real</span><h2 id='show'>Bill gates is buying *</h2>

我需要爬虫来阅读

<h2 id='show'>Obama is rocking the house</h2>
<h2 id='show'>Bill gates is buying *</h2>

我们可以这样做吗?

我有点困惑,说一个 隐藏的 div 被 google 读取了

Does google index pages with hidden divs?

但是当我谷歌一秒钟时,我发现 google 不读取隐藏的 div。那么哪个是正确的?

http://www.seroundtable.com/archives/002971.html

我的想法是像使用 css 来代替它。,

  1. 我可以将我的文字放在图像中。使用图像生成器或其他东西输出它。

【问题讨论】:

标签: seo


【解决方案1】:

我可以确认 google 确实读取了隐藏的 div,但它没有出现在搜索结果中。

我知道的原因:我管理的网站在一个备受推崇的非营利组织上有反向链接。由于非营利组织不想出现在公司网站的搜索结果中,他们隐藏了链接。 但是,如果我查看谷歌的网站管理员工具,我可以看到这个非营利组织的反向链接。

【讨论】:

    【解决方案2】:

    仅供参考,向用户和搜索引擎提供不同的内容违反了 Google 的服务条款,如果你被抓到,你会被禁止。隐藏但可以通过某种触发器访问的内容(导航菜单链接悬停在上方,单击图标以扩展内容区域等)是可以接受的。但是在您的示例中,您向搜索引擎展示了不同的内容,专门为了他们的利益,这绝对是您不想做的。

    【讨论】:

      【解决方案3】:

      建议网络爬虫不访问您网站上的内容的最佳方法是创建 robots.txt 文件。见http://robotstxt.org。没有办法告诉机器人不要访问页面的一部分

      http://code.google.com/web/controlcrawlindex/docs/faq.html#h22

      如果您打算使用 CSS,请记住机器人仍然可以读取 CSS 文件!您可以在 robots.txt 文件中包含 CSS 文件,但要排除它。

      如果您确实必须在同一页面上有索引和非索引内容,也许您应该使用框架并将 robots.txt 文件中列出的非索引框架作为不被索引。

      表现良好的爬虫将遵循 robots.txt 指南,例如谷歌,但顽皮的不会。所以,没有保证。

      【讨论】: