【问题标题】:How to check for nonsense or gibberish in a text?如何检查文本中的废话或胡言乱语?
【发布时间】:2014-04-01 06:59:42
【问题描述】:

我收到一个文本字符串,我想验证该文本是否是乱码。胡言乱语是指像“gfgsgsogjw”这样的文本,即随机键盘按下。目前我正在使用 NTextCat 来简单地检查字符串的语言是否与我期望的语言(德语或英语)匹配,这在大多数情况下都可以正常工作。然而,一小部分无意义的字符串确实设法从裂缝中溜走。是否有其他方法可以检查乱码,从而提高准确性?

【问题讨论】:

标签: c# language-recognition


【解决方案1】:

您可以使用隐马尔可夫模型检查具体语言输入中字母序列的概率。然后扔掉最不可能的。你可以对单词的搭配做同样的事情。在这两种情况下,您都必须获得每种语言的文本语料库,以便在其上构建模型。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-09-11
    • 2018-12-21
    • 1970-01-01
    • 1970-01-01
    • 2012-06-13
    • 2014-12-06
    • 2011-09-25
    • 1970-01-01
    相关资源
    最近更新 更多