【发布时间】:2011-12-15 09:54:27
【问题描述】:
我有一个包含 1000 万个域的列表,并且希望能够以编程方式分离域中的英文单词,例如:
getheadphones.com 结果为“获取耳机”p>
我知道当我将 getheadphones 放入 Google 时,我会得到“获取耳机”,但不确定他们是如何做到的,以及他们如何知道这不是“获取耳机”p>
有什么想法吗?最好在php中。
【问题讨论】:
-
嘿,你从哪里得到的名单?
-
我怀疑谷歌在其他算法中使用n-gram 来从模糊值中找到最大的单词。至于耳机与头戴式耳机,我会假设词频,但超出假设,我已经超出了我的范围。
-
他们不知道这不是“买耳机”,他们认为是“买耳机”。
-
billinkc,感谢您提供 n-gram 链接
标签: dictionary