【发布时间】:2013-12-11 06:14:06
【问题描述】:
假设您有数百万条记录,其中包含平均 2000 个单词(每条)的文本,并且您还有另一个包含大约 100000 个项目的列表。
例如:在关键字列表中,您有一个类似“总统奥巴马”的项目,而在其中一个文本记录中,您有类似这样的内容:“..... 奥巴马总统 ....”,所以我想在文本中找到这个关键字并将其替换为类似这样的内容:“..... {president Obama} ....”以突出显示文本中的关键字,关键字列表包含多个名词单词,如示例。
在如此庞大的包含数百万条文本记录的列表中,最快的方法是什么?
注意事项:
-
现在我以贪婪的方式做这项工作,逐字检查并匹配它们,但是每个文本记录大约需要 2 秒,我想要一些接近零时间的东西。
李> 1234563我想手动操作。
【问题讨论】:
-
我猜你说的语言是C#?你的贪婪方式现在看起来如何正确?
标签: c# regex lookup string-matching named-entity-recognition