【问题标题】:python based naive base classifer for new language用于新语言的基于 python 的朴素基分类器
【发布时间】:2014-09-19 06:04:26
【问题描述】:

我并不是要构建一个全新的朴素贝叶斯分类器。已经有很多例如scitkit learn 有朴素贝叶斯实现,NLTK 有自己的NaiveBayesClassifier

我的语言(印度语之一)有 1000 多个句子用于训练,300 多个句子用于测试集。我需要做的就是选择一个分类器(实现朴素贝叶斯),训练它并测试它的准确性。

问题是文本不是英文,而是 Devnagari unicode。

我正在寻求关于哪个分类器非常适合掩盖我目前遇到的主要问题是 unicode 的建议。

【问题讨论】:

标签: python unicode nlp scikit-learn nltk


【解决方案1】:

scikit-learn 中的朴素贝叶斯使用数字向量进行操作,(例如)我们可以在一些向量化器之后得到。 对于文本分类我经常使用 TfidfVectorizer:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

在构造函数 TfidfVectorizer 的参数中存在下一个参数: 编码:字符串,默认为“utf-8”。 如果给出字节或文件进行分析,则使用此编码进行解码。

你可以使用这个参数并使用你的编码,也可以指定你自己的预处理函数和分析函数(它也很有用)

【讨论】:

    【解决方案2】:

    我最好使用 scikit-learn 来构建一个语言 ID 系统,就像我之前所做的那样,请参阅 https://github.com/alvations/bayesline

    话虽如此,使用来自NLTK 的简单分类模块和 unicode 数据构建语言 ID 系统是完全可能的。

    不需要对 NLTK 代码做任何特别的事情,它们可以按原样使用。(这可能对您如何在 NLTK 中构建分类器有用:@987654322 @)

    现在表明完全可以使用开箱即用的 NLTK 来获取带有 unicode 数据的语言 ID,见下文

    首先对于语言ID,在特征提取中使用unicode字符特征和字节码存在细微差别:

    from nltk.corpus import indian
    
    # NLTK reads the corpus as bytecodes.
    hindi = " ".join(indian.words('hindi.pos'))
    bangla = " ".join(indian.words('bangla.pos'))
    marathi = " ".join(indian.words('marathi.pos'))
    telugu = " ".join(indian.words('telugu.pos'))
    
    # Prints out first 10 bytes (including spaces).
    print 'hindi:', hindi[:10]
    print 'bangla:', bangla[:10]
    print 'marathi:', marathi[:10]
    print 'telugu:', telugu[:10]
    print
    
    # Converts bytecodes to utf8.
    hindi = hindi.decode('utf8')
    bangla = bangla.decode('utf8')
    marathi = marathi.decode('utf8')
    telugu = telugu.decode('utf8')
    
    # Prints out first 10 unicode char (including spaces).
    print 'hindi:', hindi[:10]
    print 'bangla:', bangla[:10]
    print 'marathi:', marathi[:10]
    print 'telugu:', telugu[:10]
    print
    

    [出]:

    hindi: पूर
    bangla: মহি
    marathi: '' सन
    telugu: 4 . ఆడ
    
    hindi: पूर्ण प्रत
    bangla: মহিষের সন্
    marathi: '' सनातनवा
    telugu: 4 . ఆడిట్ 
    

    现在您看到了使用字节码和 unicode 的区别,让我们训练一个 taggaer。

    from nltk import NaiveBayesClassifier as nbc
    
    # Allocate some sort of labels for the data.
    training = [(hindi, 'hi'), (bangla, 'ba'), (marathi, 'ma'), (telugu, 'te')]
    # This is how you can extract ngrams
    print ngrams(telugu[:10], 2)
    print
    print ngrams(hindi[:10], 3)
    print
    
    vocabulary = set(chain(*[ngrams(txt, 2) for txt,tag in training]))
    
    feature_set = [({i:(i in ngrams(sentence, 2)) for i in vocabulary},tag) for sentence, tag in training]
    
    classifer = nbc.train(feature_set)
    
    test1 = u'पूर्ण प्रत' # hindi
    test2 = u'মহিষের সন্' # bangla
    test3 = u'सनातनवा' # marathi
    test4 = u'ఆడిట్ ' # telugu
    
    for testdoc in [test1, test2, test3, test4]:
        featurized_test_sent =  {i:(i in ngrams(testdoc,2)) for i in vocabulary}
        print "test sent:", testdoc
        print "tag:", classifer.classify(featurized_test_sent)
        print
    

    [出]:

    [(u'4', u' '), (u' ', u'.'), (u'.', u' '), (u' ', u'\u0c06'), (u'\u0c06', u'\u0c21'), (u'\u0c21', u'\u0c3f'), (u'\u0c3f', u'\u0c1f'), (u'\u0c1f', u'\u0c4d'), (u'\u0c4d', u' ')]
    
    [(u'\u092a', u'\u0942', u'\u0930'), (u'\u0942', u'\u0930', u'\u094d'), (u'\u0930', u'\u094d', u'\u0923'), (u'\u094d', u'\u0923', u' '), (u'\u0923', u' ', u'\u092a'), (u' ', u'\u092a', u'\u094d'), (u'\u092a', u'\u094d', u'\u0930'), (u'\u094d', u'\u0930', u'\u0924')]
    
    test sent: पूर्ण प्रत
    tag: hi
    
    test sent: মহিষের সন্
    tag: ba
    
    test sent: सनातनवा
    tag: ma
    
    test sent: ఆడిట్ 
    tag: te
    

    这是完整的代码:

    # -*- coding: utf-8 -*-
    
    from itertools import chain
    from nltk.corpus import indian
    from nltk.util import ngrams
    from nltk import NaiveBayesClassifier as nbc
    
    
    # NLTK reads the corpus as bytecodes.
    hindi = " ".join(indian.words('hindi.pos'))
    bangla = " ".join(indian.words('bangla.pos'))
    marathi = " ".join(indian.words('marathi.pos'))
    telugu = " ".join(indian.words('telugu.pos'))
    
    # Prints out first 10 bytes (including spaces).
    print 'hindi:', hindi[:10]
    print 'bangla:', bangla[:10]
    print 'marathi:', marathi[:10]
    print 'telugu:', telugu[:10]
    print
    
    # Converts bytecodes to utf8.
    hindi = hindi.decode('utf8')
    bangla = bangla.decode('utf8')
    marathi = marathi.decode('utf8')
    telugu = telugu.decode('utf8')
    
    # Prints out first 10 unicode char (including spaces).
    print 'hindi:', hindi[:10]
    print 'bangla:', bangla[:10]
    print 'marathi:', marathi[:10]
    print 'telugu:', telugu[:10]
    print
    
    # Allocate some sort of labels for the data.
    training = [(hindi, 'hi'), (bangla, 'ba'), (marathi, 'ma'), (telugu, 'te')]
    # This is how you can extract ngrams
    print ngrams(telugu[:10], 2)
    print
    print ngrams(hindi[:10], 3)
    print
    
    vocabulary = set(chain(*[ngrams(txt, 2) for txt,tag in training]))
    
    feature_set = [({i:(i in ngrams(sentence, 2)) for i in vocabulary},tag) for sentence, tag in training]
    
    classifer = nbc.train(feature_set)
    
    test1 = u'पूर्ण प्रत' # hindi
    test2 = u'মহিষের সন্' # bangla
    test3 = u'सनातनवा' # marathi
    test4 = u'ఆడిట్ ' # telugu
    
    for testdoc in [test1, test2, test3, test4]:
        featurized_test_sent =  {i:(i in ngrams(testdoc,2)) for i in vocabulary}
        print "test sent:", testdoc
        print "tag:", classifer.classify(featurized_test_sent)
        print
    

    【讨论】:

    • 虽然它正是我想要的。我可以从这里把它向前推进。
    【解决方案3】:

    这个问题的表述很糟糕,但有可能是关于语言识别而不是句子分类

    如果是这种情况,那么在应用朴素贝叶斯或其他分类器之类的方法之前还有很长的路要走。看看Damir Cavar's LID 使用的字符语法方法,用 Python 实现。

    【讨论】:

    • 是的,这与句子分类无关。它是关于可用机器学习模块进行语言识别的。
    • 好的,那么我的建议是阅读这个问题:stackoverflow.com/questions/3182268/nltk-and-language-detection
    • 基本上,您将在其他地方进行识别,而不是在 NLTK 或 Scikit-learn 中。在处理完 Unicode 和字符图之后,您可以将这些库中的各种统计模型插入到任何识别解决方案的决策函数中。
    • 将查看它并返回这里。
    猜你喜欢
    • 1970-01-01
    • 2014-11-15
    • 1970-01-01
    • 2012-07-22
    • 2016-03-04
    • 2011-12-16
    • 1970-01-01
    • 2013-08-17
    • 1970-01-01
    相关资源
    最近更新 更多