限制搜索引擎抓取 JS 链接

【问题标题】：Restricting JS links from search engine's crawling限制搜索引擎抓取 JS 链接
【发布时间】：2011-08-08 09:13:06
【问题描述】：

我想阻止谷歌跟踪我在 JS 中的链接。我没有在 robots.txt 中找到如何做到这一点我找错地方了吗？

更多信息：我看到谷歌正在抓取这些页面，尽管链接只出现在 JS 中。我不想让他抓取的原因是这个内容依赖于外部 API，我不想将我的速率限制浪费在谷歌抓取工具上，并且只根据用户需求

【问题讨论】：

标签： php javascript web-crawler

【解决方案1】：

直接来自谷歌 ->

http://www.google.com/support/webmasters/bin/answer.py?answer=96569

【讨论】：

我在 wikipedia 中读到：“nofollow 属性值并不意味着阻止对内容的访问，或者阻止内容被搜索引擎索引。阻止搜索引擎蜘蛛访问的正确方法网站上的内容或防止他们将页面内容包含在其索引中的是机器人排除标准（robots.txt）”。这就是为什么我认为这对我来说不是正确的解决方案。你的想法？
另外我理解它应该主要是不影响我链接到的页面的排名，而不是避免它被抓取

【解决方案2】：

Google 可能不会找到您隐藏在 JS 中的任何链接，但其他人可能会链接到同一个地方。

重要的不是链接，而是 URL。只需在 robots.txt 中指定您不希望搜索引擎访问的 URL。您通常通过 JS 将它们暴露给浏览器这一事实是无关紧要的。

如果您真的想限制对内容的访问，那么仅仅降低可发现性可能还不够，您应该设置一个身份验证层（例如密码保护）。

【讨论】：

我看到谷歌正在抓取这些页面。此外，这不是我担心的内容。此内容取决于外部 API，我不想将我的速率限制浪费在谷歌爬虫上，并且仅根据用户需求
我可以在 robots.txt 中指定不跟随 JS 网址吗？
您没有试图保护“JS URL”。这只是一段返回文档的代码。您正在尝试保护 HTTP URL（可能是通过 JS 使用的 URL）。保护它。
但我无法真正生成这些 url 的列表，而且它是一个可以不断增长的相当大的列表。所以我想也许保护 JS 文档持有的所有 HTTP URL 可能会有所帮助......
robots.txt 以目录为基础运行，构建你的 URL，使它们都挂在同一个目录上，然后阻止它。

猜你喜欢

2012-06-13
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2018-01-08
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2023-02-20
下载 2021-06-27
下载 2023-03-24

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode