【发布时间】:2017-01-09 02:06:22
【问题描述】:
我有两个字符串列表。第一个是姓名列表(6MB),第二个是句子列表(大约三百万个句子)。 我想通过句子寻找每个名字。这需要几天时间。 我正在使用模式匹配并检查正则表达式,因为句子和名称是由用户生成的并且不确定。 我怎样才能更快地做到这一点?
【问题讨论】:
-
一个合适的数据库可能会更快。
-
我在数据库中拥有一切。我不知道如何使用索引来搜索和匹配字符串。阅读资源也可以帮助我。
-
比创建一个完成这项工作的查询。它应该比在 java 中做任何事情都要快。
-
您可以尝试对名称进行哈希处理,然后尝试查看每个单词是否存在哈希而不是模式匹配。
-
@KevinEsche 这个句子,并不是一个真正的句子。它是数据库中记录的所有文本信息。名称列表中的名称并不完全在文本中,因为文本是由用户生成的,它们并不完全相同。你能给我推荐一个我能理解你的意思的参考吗?
标签: java string performance indexing