【发布时间】:2018-01-17 02:39:51
【问题描述】:
我目前正在使用来自 Stanford CoreNLP 的 OpenIE 系统,使用它的 Java 命令行界面
java -mx32g -cp stanford-corenlp-3.8.0.jar:stanford-corenlp-3.8.0-models.jar:CoreNLP-to-HTML.xsl:slf4j-api.jar:slf4j-simple.jar edu.stanford.nlp.naturalli.OpenIE test_file.txt -threads 8 -resolve_coref true
我的测试文件包含 50,000 个句子,每行一个。
OpenIE 结果将是所有句子的元组列表。是否有一个标志可以设置为在每个元组和特定句子之间建立对应关系? (例如,有些句子可能没有提取,有些可能有多个。我怎么知道哪个是哪个?)
我目前的解决方案是拥有 50,000 个文件,每个文件一个句子。但这非常慢,因为每个文件都必须重新加载模型。
谢谢。
编辑:
我意识到 -filelist 标志使处理速度更快,这是一件好事。但遗憾的是,输出仍然无法区分不同的文件。
【问题讨论】:
-
我不确定是否有标志,但是将 CoreNLP 作为服务器运行,然后使用 python(或任何其他语言)向它提供句子并检索解析后的数据相对简单。如果您使用此方法,服务器将不必在句子之间重新加载。
标签: stanford-nlp