快速 NLTK 解析成语法树答案

【问题标题】：Quick NLTK parse into syntax tree快速 NLTK 解析成语法树
【发布时间】：2014-06-23 09:59:49
【问题描述】：

我正在尝试将数百个句子解析到它们的语法树中，我需要快速完成，问题是如果我使用 NLTK，那么我需要定义一个语法，我不知道我只知道它会是英语。我尝试使用this 统计解析器，它非常适合我的目的，但是速度可能会好很多，有没有一种方法可以在没有语法的情况下使用 nltk 解析？在这个 sn-p 中，我使用一个处理池来“并行”进行处理，但速度还有很多不足之处。

import pickle
import re
from stat_parser.parser import Parser
from multiprocessing import Pool
import HTMLParser
def multy(a):
    global parser
    lst=re.findall('(\S.+?[.!?])(?=\s+|$)',a[1])
    if len(lst)==0:
        lst.append(a[1])
    try:
        ssd=parser.norm_parse(lst[0])
    except:
        ssd=['NNP','nothing']
    with open('/var/www/html/internal','a') as f:
        f.write("[[ss")
        pickle.dump([a[0],ssd], f)
        f.write("ss]]")
if __name__ == '__main__':
    parser=Parser()
    with open('/var/www/html/interface') as f:
        data=f.read()
    data=data.split("\n")
    p = Pool(len(data))
    Totalis_dict=dict()
    listed=list()
    h = HTMLParser.HTMLParser()
    with open('/var/www/html/internal','w') as f:
        f.write("")
    for ind,each in enumerate(data):
        listed.append([str(ind),h.unescape(re.sub('[^\x00-\x7F]+','',each))])
    p.map(multy,listed)

【问题讨论】：

会不会是全局声明导致了延迟？也许我应该使用一个新的解析器对象？

标签： python nlp nltk

【解决方案1】：

解析是一项计算量相当大的操作。您可能可以从更完善的解析器中获得更好的性能，例如bllip。它是用 c++ 编写的，并且受益于一个长期致力于它的团队。有一个与之交互的python模块。

这是一个比较 bllip 和您正在使用的解析器的示例：

import timeit

# setup stat_parser
from stat_parser import Parser
parser = Parser()

# setup bllip
from bllipparser import RerankingParser
from bllipparser.ModelFetcher import download_and_install_model
# download model (only needs to be done once)
model_dir = download_and_install_model('WSJ', '/tmp/models')
# Loading the model is slow, but only needs to be done once
rrp = RerankingParser.from_unified_model_dir(model_dir)

sentence = "In linguistics, grammar is the set of structural rules governing the composition of clauses, phrases, and words in any given natural language."

if __name__=='__main__':
    from timeit import Timer
    t_bllip = Timer(lambda: rrp.parse(sentence))
    t_stat = Timer(lambda: parser.parse(sentence))
    print "bllip", t_bllip.timeit(number=5)
    print "stat", t_stat.timeit(number=5)

它在我的电脑上运行速度快了大约 10 倍：

(vs)[jonathan@ ~]$ python /tmp/test.py 
bllip 2.57274985313
stat 22.748554945

此外，还有一个关于将 bllip 解析器集成到 NLTK 中的拉取请求：https://github.com/nltk/nltk/pull/605

另外，你在你的问题中说：“我不知道我只知道它会是英语”。如果你的意思是它也需要解析其他语言，那它会复杂得多。这些统计解析器接受了一些输入的训练，通常是从宾夕法尼亚州树库中的 WSJ 解析的内容。一些解析也会为其他语言提供经过训练的模型，但您需要先识别语言，然后将适当的模型加载到解析器中。

【讨论】：

谢谢，看起来很棒！我并不是说它会使用不同的语言，我认为它可以是英语中的每个单词，甚至是一些奇怪的单词:) 不过这应该可以正常工作，谢谢。
从 NLTK 版本 3.0.2 开始，支持从 BLLIP Parser 获取树。示例代码见github.com/nltk/nltk/blob/develop/nltk/parse/bllip.py。
感谢很多，帮助很大:)