【问题标题】:Allow script tags in .Net Core Prerender.io middlewear在 .Net Core Prerender.io 中间件中允许脚本标签
【发布时间】:2019-12-24 05:32:52
【问题描述】:

我正在运行 .Net Core 中间件和 AngularJS 前端。在我的主页上,我有谷歌分析脚本标签,以及与第三方提供商进行验证所需的其他脚本标签。 Prerender.io 默认删除这些,但是,有一个插件“removeScriptTags”。有没有人有使用 .Net Core 中间件关闭此功能的经验?

更好的解决方案可能是将您不想看到缓存内容的爬虫列入黑名单,但我不确定这是否可配置。就我而言,看起来下面的所有用户代理都在访问 Prerender.io 缓存的内容。

这是我的“crawlerUserAgentPattern”,它们是应该被允许访问缓存内容的爬虫。我在此列表中没有看到上面的内容,所以我对为什么允许他们访问感到困惑。

"(SeobilityBot)|(Seobility)|(seobility)|(bingbot)|(googlebot)|(google)|(bing)|(Slurp)|(DuckDuckBot)|(YandexBot)|(baiduspider)|(搜狗)|(Exabot)|(ia_archiver)|(facebot)|(facebook)|(twitterbot)|(rogerbot)|(linkedinbot)|(embedly)|(quora)|(pinterest)|(slackbot)|(redditbot)| (Applebot)|(WhatsApp)|(flipboard)|(tumblr)|(bitlybot)|(Discordbot)"

【问题讨论】:

    标签: .net-core web-crawler asp.net-core-2.1 googlebot prerender


    【解决方案1】:

    看起来您的正则表达式中有(google)。你已经有googlebot,所以如果你不想匹配任何只包含“google”这个词的用户代理,我建议你删除(google)

    【讨论】:

      猜你喜欢
      • 2018-06-09
      • 2015-08-08
      • 2011-02-21
      • 1970-01-01
      • 2018-07-15
      • 1970-01-01
      • 2011-02-23
      • 2011-04-18
      • 1970-01-01
      相关资源
      最近更新 更多