强制 SSL 时，如何排除某些文件夹被 ASP.net 中的搜索引擎索引？答案

【问题标题】：How can I exclude certain folders from being indexed by search engines in ASP.net when SSL is forced?强制 SSL 时，如何排除某些文件夹被 ASP.net 中的搜索引擎索引？
【发布时间】：2011-10-25 22:02:33
【问题描述】：

早安，

我已经进行了一些研究以寻找这个答案，但运气不佳。希望有人能帮忙..

情况是我正在处理的一个站点（内置于 ASP.net）在其大部分页面上强制 SSL 有一些文件夹（即site.com/dontindex）包含绝对不应该被搜索索引的文件引擎。 Google 在其索引中有指向这些文件的链接（即https://www.site.com/dontindex/file.pdf）。

我的问题是我创建了一个 robots.txt 文件以禁止对这些文件夹进行索引，但从我所读到的内容来看，这不会阻止对这些文件进行索引 - 因为其中一些文件可能会通过安全页面。我在想只有非安全页面才会以这种方式被禁止。 Q1) 这是否正确？

当我在 Google 网站管理员工具中针对新的 robots 文件测试 http://www.site.com/dontindex/file.pdf 时，机智返回为“被第 5 行阻止：不允许：/dontindex/”，但当我尝试 https://www.site.com/dontindex/file.pdf 时，它返回为“不在域”。

据我所知，我应该在某处为安全文件/文件夹创建第二个 robots.txt 文件。我读过如果站点运行 php，我可以做一些重写规则来覆盖这个，但是在我的 ASP.net 情况下该怎么办？ Q2) 如果我需要第二个 robots 文件（鉴于它是一个 ASP.net 站点），我应该把这个文件放在哪里？

感谢您的帮助！

【问题讨论】：

标签： asp.net ssl robots.txt

【解决方案1】：

我认为问题更多与谷歌网站管理员工具有关，如http://site.com/robots.txt == @987654321@

我认为不在域中错误是因为 Google 将 2 分类为单独的站点。您需要添加 https 和 http 站点来检查 robots 文件。

【讨论】：

谢谢！我添加了带有安全前缀的站点（它要求我通过偶然上传与非安全前缀相同的 html 文件来确认所有权/控制权）。然后我测试了一个指向列出的文件的链接（但不应该列出），它说同一个机器人文件不允许它列出。完美的！我已重新提交该网站以进行索引，因此那些不需要的列表最终会消失（对吗？？）。