【问题标题】:The correct way to make a GWT (Ajax) URL crawlable/indexable使 GWT (Ajax) URL 可抓取/可索引的正确方法
【发布时间】:2015-02-19 08:17:27
【问题描述】:

我有一个应用程序,我需要搜索引擎抓取工具才能对其进行索引。 我不需要将整个应用程序仅索引特定的 URL(或 URL 模式),例如 http://examplegwtapp.com/xyz,其中 xyz 是哈希码,类似于那些 URL 缩短器。

我的应用是这样工作的:

当访问该 URL 时,servlet 会将请求转发到传递此片段的 GWT 应用程序:app.html#View?hash=xyz

所以视图页面是完全动态的。

问题是使这个特定的动态生成的 URL 被搜索引擎索引或抓取的正确方法是什么?

【问题讨论】:

    标签: java ajax search gwt indexing


    【解决方案1】:

    我会调查Making AJAX Applications CrawlableA proposal for making AJAX crawlable

    简而言之,这些是您应该考虑的步骤:

    1. 爬虫从漂亮的 url 映射到丑陋的 url。即从 http://examplegwtapp.com/app.html#View?hash=xyzhttp://examplegwtapp.com/app.html?_escaped_fragment_=hash=xyz
    2. 爬虫请求丑陋的网址
    3. 服务器从丑陋的 url 映射到漂亮的 url。您可以通过在 apache 级别识别任何 _escaped_fragment_ 请求并将其重定向到某个服务器控制器来处理爬虫调用来做到这一点。即检查Apache rewrite condition for ajax crawling
    4. 服务器调用无头浏览器(HtmlUnit 或者如果您的代码只有一小部分是 js,则只需使用您的服务器生成静态 html 代码。即HtmlUnit Generate Page for GWT App
    5. 无头浏览器响应返回给爬虫。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-12-12
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-11-13
      • 2012-01-01
      • 1970-01-01
      相关资源
      最近更新 更多