【发布时间】:2017-03-23 14:47:34
【问题描述】:
我想在 python 中使用出色的https://spacy.io/ 库来构建一个倒排索引来标记单词。
它们提供了一个很好的例子,如何同时执行预处理并最终得到一个很好的准备索引的文档列表。
texts = [u'One document.', u'...', u'Lots of documents']
# .pipe streams input, and produces streaming output
iter_texts = (texts[i % 3] for i in range(100000000))
for i, doc in enumerate(nlp.pipe(iter_texts, batch_size=50, n_threads=4)):
assert doc.is_parsed
if i == 30:
break
print(i)
print(doc)
目前我不明白的是如何使用此方法维护与原始文档的关系(文件路径/ URL),即将其存储为每个文档的附加属性。
【问题讨论】:
标签: python nlp inverted-index spacy