【问题标题】:How can I exclude certain folders from being indexed by search engines in ASP.net when SSL is forced?强制 SSL 时,如何排除某些文件夹被 ASP.net 中的搜索引擎索引?
【发布时间】:2011-10-25 22:02:33
【问题描述】:

早安,

我已经进行了一些研究以寻找这个答案,但运气不佳。希望有人能帮忙..

情况是我正在处理的一个站点(内置于 ASP.net)在其大部分页面上强制 SSL 有一些文件夹(即site.com/dontindex)包含绝对不应该被搜索索引的文件引擎。 Google 在其索引中有指向这些文件的链接(即https://www.site.com/dontindex/file.pdf)。

我的问题是我创建了一个 robots.txt 文件以禁止对这些文件夹进行索引,但从我所读到的内容来看,这不会阻止对这些文件进行索引 - 因为其中一些文件可能会通过安全页面。我在想只有非安全页面才会以这种方式被禁止。 Q1) 这是否正确?

当我在 Google 网站管理员工具中针对新的 robots 文件测试 http://www.site.com/dontindex/file.pdf 时,机智返回为“被第 5 行阻止:不允许:/dontindex/”,但当我尝试 https://www.site.com/dontindex/file.pdf 时,它返回为“不在域”。

据我所知,我应该在某处为安全文件/文件夹创建第二个 robots.txt 文件。我读过如果站点运行 php,我可以做一些重写规则来覆盖这个,但是在我的 ASP.net 情况下该怎么办? Q2) 如果我需要第二个 robots 文件(鉴于它是一个 ASP.net 站点),我应该把这个文件放在哪里?

感谢您的帮助!

【问题讨论】:

    标签: asp.net ssl robots.txt


    【解决方案1】:

    我认为问题更多与谷歌网站管理员工具有关,如http://site.com/robots.txt == @987654321@

    我认为不在域中错误是因为 Google 将 2 分类为单独的站点。您需要添加 https 和 http 站点来检查 robots 文件。

    【讨论】:

    • 谢谢!我添加了带有安全前缀的站点(它要求我通过偶然上传与非安全前缀相同的 html 文件来确认所有权/控制权)。然后我测试了一个指向列出的文件的链接(但不应该列出),它说同一个机器人文件不允许它列出。完美的!我已重新提交该网站以进行索引,因此那些不需要的列表最终会消失(对吗??)。
    猜你喜欢
    • 2014-11-20
    • 1970-01-01
    • 2010-10-06
    • 2021-11-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多