【发布时间】:2011-03-22 05:03:56
【问题描述】:
我需要从 lucene 查询的结果中获取向量空间模型(使用 tf-idf 加权),但不知道该怎么做。看起来应该很简单,在这个阶段,也许你们中的一个人可以为我指明正确的方向。
我一直在试图弄清楚如何做到这一点,或者我还没有理解我所阅读的内容是我需要的(很可能),或者还没有解决方案发布到我的特定问题。我什至尝试自己直接根据查询结果计算 VSM,但我的解决方案非常复杂。
编辑:对于其他偶然发现此问题的人,有一个解决方案@更清晰的问题here 我需要的可以通过 IndexReader.getTermFreqVector(String field, int docid) 方法获得。
不幸的是,这对我不起作用,因为我正在处理的索引没有存储术语频率向量,所以我想我仍在寻求更多帮助!
【问题讨论】: