【发布时间】:2015-07-20 22:54:56
【问题描述】:
我需要一个 robots.txt Disallow 规则,以防止爬虫跟随 <script type="text/template"> 标签中的模板标签。
抓取时,我收到错误的网址如下所示:
404 GET /foo/bar/<%=%20 getPublicUrl %20%
例如
<script type="text/template">
<a href="<%= my_var %>" target="_blank">Test</a>
</script>
被类似的东西阻止:
Disallow: <%*%>
有什么想法吗?
我确实注意到它似乎发生在 target="_blank" 的锚点上。不知道为什么会这样。
【问题讨论】:
标签: templates web-crawler underscore.js robots.txt