【发布时间】:2019-12-24 05:32:52
【问题描述】:
我正在运行 .Net Core 中间件和 AngularJS 前端。在我的主页上,我有谷歌分析脚本标签,以及与第三方提供商进行验证所需的其他脚本标签。 Prerender.io 默认删除这些,但是,有一个插件“removeScriptTags”。有没有人有使用 .Net Core 中间件关闭此功能的经验?
更好的解决方案可能是将您不想看到缓存内容的爬虫列入黑名单,但我不确定这是否可配置。就我而言,看起来下面的所有用户代理都在访问 Prerender.io 缓存的内容。
这是我的“crawlerUserAgentPattern”,它们是应该被允许访问缓存内容的爬虫。我在此列表中没有看到上面的内容,所以我对为什么允许他们访问感到困惑。
"(SeobilityBot)|(Seobility)|(seobility)|(bingbot)|(googlebot)|(google)|(bing)|(Slurp)|(DuckDuckBot)|(YandexBot)|(baiduspider)|(搜狗)|(Exabot)|(ia_archiver)|(facebot)|(facebook)|(twitterbot)|(rogerbot)|(linkedinbot)|(embedly)|(quora)|(pinterest)|(slackbot)|(redditbot)| (Applebot)|(WhatsApp)|(flipboard)|(tumblr)|(bitlybot)|(Discordbot)"
【问题讨论】:
标签: .net-core web-crawler asp.net-core-2.1 googlebot prerender