【问题标题】:Segmentation and Collocation分割与搭配
【发布时间】:2017-06-24 19:28:57
【问题描述】:

我正在为我正在实施的两个功能寻找新的想法。

1.) 文本分割功能:

Ex: 
                    User Query:                 Resolved Query:
                    -----------                 ---------------
            It has lotsofwordstogether   It has lots of words together

    I am using normal recursion or DP solution using unigrams probability.

2.) 搭配方式:

Ex:
        User Query:                       Resolved Query:
        ----------                      ---------------
    I like t shirts in Wal mart       I like t-shirts in Walmart

不知道该怎么做。我目前唯一的想法是将句子标记化并将无意义的标记与以前的标记或下一个标记组合以形成可以根据一元组进行检查的单词。

这些解决方案对我的要求来说很慢(尤其是第一个)。 我想一起使用这些功能。寻找更好的想法。

【问题讨论】:

    标签: nlp data-mining text-mining text-segmentation collocation


    【解决方案1】:

    我猜标准方法涉及字母 n-gram。

    所以“wal mart”会变成“wal”“alm”“lma”“mar”“art”。

    【讨论】:

    • 我是这个领域的新手。你能指出一些关于这方面的书或在线资源吗?如何使用字母 n-gram 来解析 tshirt?
    【解决方案2】:

    对于问题 1),查找单词边界,您可以使用现有算法对东亚语言进行标记。它们通常涉及应用隐马尔可夫模型:

    http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

    https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

    我还可以考虑应用 CKY 算法(用于解析上下文无关文法),特别是如果您可以找到提供音节分割的字典和音节清单。

    我认为问题 2) 只是拼写更正的一个例子。就像对待任何其他字符一样对待空格。

    我会发布更多链接,但我没有足够的声誉。

    这些都不是简单的问题,祝你好运!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-09-17
      • 1970-01-01
      • 1970-01-01
      • 2011-12-27
      • 2018-11-09
      • 2016-04-25
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多