【发布时间】:2013-03-01 12:35:36
【问题描述】:
您好,我想提取文档中术语的 tf-idf 值。经过一番搜索,我在示例配置中找到了一个可以执行此操作的请求处理程序:http://localhost:8983/solr/tvrh/?q=id:documentid&qt=tvrh&tv=true&tv.all=true
我想做的是批量分析文档。这就是我所做的:
- 使用 commit=true 将新文档发送到 solr 更新处理程序
- 使用上述网址查询术语向量的 solr
问题是插入带有 commit=true 的文档大约需要 600 毫秒,这对于我的用例来说是无法接受的。
然后我找到了http://wiki.apache.org/solr/RealTimeGet 并尝试将其与 termvector 请求处理程序结合起来:
<requestHandler name="/tvrh" class="solr.RealTimeGetHandler" startup="lazy">
<lst name="defaults">
<str name="df">text</str>
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
但是当我尝试查询处理程序时,我得到了这个作为响应:http://pastebin.com/KtB7DBSv 我想将这两者结合起来是不可能的?
无论如何,我怎样才能提高性能?有什么建议?是否有另一种获取 tf idf 值的方法?
【问题讨论】:
标签: solr