对爬虫隐藏文本或 div答案

【问题标题】：hide text or div from crawlers [closed]对爬虫隐藏文本或 div
【发布时间】：2011-11-12 15:30:06
【问题描述】：

假设我有一个文本

<span class="hide">for real</span><h2 id='show'>Obama is rocking the house</h2>
<span class="hide">not real</span><h2 id='show'>Bill gates is buying *</h2>

我需要爬虫来阅读

<h2 id='show'>Obama is rocking the house</h2>
<h2 id='show'>Bill gates is buying *</h2>

我们可以这样做吗？

我有点困惑，说一个 隐藏的 div 被 google 读取了

Does google index pages with hidden divs?

但是当我谷歌一秒钟时，我发现 google 不读取隐藏的 div。那么哪个是正确的？

http://www.seroundtable.com/archives/002971.html

我的想法是像使用 css 来代替它。，

我可以将我的文字放在图像中。使用图像生成器或其他东西输出它。

【问题讨论】：

我投票结束这个问题，因为它不是一个编程问题，而且它在 Stack Overflow 上是题外话。应在Webmasters 上询问有关您网站的非编程问题。在这种情况下，问题已经被问到并回答了：How to keep text from showing in a search engine? (How to un-SEO specific text)

标签： seo

【解决方案1】：

我可以确认 google 确实读取了隐藏的 div，但它没有出现在搜索结果中。

我知道的原因：我管理的网站在一个备受推崇的非营利组织上有反向链接。由于非营利组织不想出现在公司网站的搜索结果中，他们隐藏了链接。但是，如果我查看谷歌的网站管理员工具，我可以看到这个非营利组织的反向链接。

【讨论】：

【解决方案2】：

仅供参考，向用户和搜索引擎提供不同的内容违反了 Google 的服务条款，如果你被抓到，你会被禁止。隐藏但可以通过某种触发器访问的内容（导航菜单链接悬停在上方，单击图标以扩展内容区域等）是可以接受的。但是在您的示例中，您向搜索引擎展示了不同的内容，专门为了他们的利益，这绝对是您不想做的。

【讨论】：

【解决方案3】：

建议网络爬虫不访问您网站上的内容的最佳方法是创建 robots.txt 文件。见http://robotstxt.org。没有办法告诉机器人不要访问页面的一部分

http://code.google.com/web/controlcrawlindex/docs/faq.html#h22

如果您打算使用 CSS，请记住机器人仍然可以读取 CSS 文件！您可以在 robots.txt 文件中包含 CSS 文件，但要排除它。

如果您确实必须在同一页面上有索引和非索引内容，也许您应该使用框架并将 robots.txt 文件中列出的非索引框架作为不被索引。

表现良好的爬虫将遵循 robots.txt 指南，例如谷歌，但顽皮的不会。所以，没有保证。

【讨论】：