【问题标题】:Is there any way to seperate english words in a domain? [closed]有没有办法在域中分隔英文单词? [关闭]
【发布时间】:2011-12-15 09:54:27
【问题描述】:

我有一个包含 1000 万个域的列表,并且希望能够以编程方式分离域中的英文单词,例如:

getheadphones.com 结果为“获取耳机”​​p>

我知道当我将 getheadphones 放入 Google 时,我会得到“获取耳机”,但不确定他们是如何做到的,以及他们如何知道这不是“获取耳机”​​p>

有什么想法吗?最好在php中。

【问题讨论】:

  • 嘿,你从哪里得到的名单?
  • 我怀疑谷歌在其他算法中使用n-gram 来从模糊值中找到最大的单词。至于耳机与头戴式耳机,我会假设词频,但超出假设,我已经超出了我的范围。
  • 他们不知道这不是“买耳机”,他们认为是“买耳机”。
  • billinkc,感谢您提供 n-gram 链接

标签: dictionary


【解决方案1】:

谷歌以其拼写检查器而闻名,它可以做更多的事情来弄清楚您要搜索的内容,但是这个问题已经在 question 中得到了解决

要获取 OSX 和一些 linux 机器中的英文单词列表,有一个可用的:/usr/share/dict/words 否则你可以从 (sourceforge) 得到一个

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-10-07
    • 1970-01-01
    • 2019-04-12
    • 2020-10-10
    • 2012-06-20
    • 2021-03-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多