【问题标题】:Best way for search in big tree在大树中搜索的最佳方法
【发布时间】:2018-05-09 15:26:52
【问题描述】:

我有很多域名,例如:

site.com
ns1.site.com
ns2.site.com
test.main.site.com
google.com
mail.google.com
etc.

大约 10^9 的行数。 我搜索存储它的最佳方式并按主域查找所有子域。

例如,搜索查询是:

site.com

结果将是:

ns1.site.com
ns2.site.com
test.main.site.com

有什么办法吗?

谢谢

【问题讨论】:

  • 您使用什么语言/工具?如果您安装了grep,您可以使用grep "site.com" inputfile
  • 我正在为这项任务寻找最好的语言/工具。 Grep 对我来说太慢了。我有 ~ 10^9 行。
  • 您可以使用本文中提到的技术加速 grep:stackoverflow.com/questions/13913014/…

标签: tree bigdata


【解决方案1】:

您可以使用一些实时全文搜索工具,分别存储每个域名。然后您可以使用给定的输入运行 LIKE 查询,它将返回所有包含您输入字符串的域名。

一些流行的实时全文搜索引擎是Apache SolrElasticSearch。两者都应该满足你的条件。

【讨论】:

    猜你喜欢
    • 2020-09-03
    • 1970-01-01
    • 1970-01-01
    • 2013-11-04
    • 1970-01-01
    • 2010-10-09
    • 2013-08-17
    • 1970-01-01
    • 2016-08-25
    相关资源
    最近更新 更多