【问题标题】:How can I address the 10GB limit on Google App Engine?如何解决 Google App Engine 上的 10GB 限制?
【发布时间】:2014-11-08 10:58:19
【问题描述】:

我们正在尝试通过 GMail 顶部来索引收件箱,并且正在使用 App Engine 搜索 API,但我们达到了 10 GB 的限制。这是因为我们正在索引整个组织的电子邮件,因此我们可以搜索整个团队的收件箱。我们如何解决这个问题?一种方法可能是每个人都有一个单独的索引并以某种方式手动组合结果,但担心合并结果可能真的很复杂!想知道有哪些可用选项?

【问题讨论】:

    标签: google-app-engine indexing google-search-api


    【解决方案1】:

    这是任何文档检索系统中的典型问题,解决方案是将整个语料库分割成多个桶。您应该根据您的需求/使用模式选择切片策略。

    一种可能性是按日期对消息进行切片。您不断将消息添加到索引,直到接近限制,此时您为较新的消息启动一个新索引。或者,您可以按日历间隔(每年、每季度或每月,具体取决于您的数量)进行。

    合并多个索引的结果很简单。您还可以让用户有机会选择他们想要在搜索中回溯多长时间。人们通常知道他们正在寻找最近发生的事情或很久以前发生的事情。

    【讨论】:

    • 合并会不会变得非常复杂,因为每组结果都有自己的相关性标准,然后合并这些结果将需要您(应用程序)评估每个结果的相关性?例如。 index1 的 result3 可能比 index2 的 result2 更相关,反之亦然?
    • 搜索 API 不计算“相关性”——它只返回与查询“匹配”的结果。如果您想评估相对于用户提供的关键字和/或短语组合的相关性,您需要合并所有结果并根据您用于计算相关性的任何标准分析每个结果。请注意,大多数电子邮件客户端根本不使用“相关性”,因此,用户通常不希望文档按相关性进行排名。当我搜索收件箱时,我希望结果按日期排序。
    • 谢谢,真的很有帮助!
    【解决方案2】:

    【讨论】:

      猜你喜欢
      • 2011-05-28
      • 2023-03-04
      • 2017-10-04
      • 1970-01-01
      • 2010-11-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多