【发布时间】:2017-03-13 17:57:15
【问题描述】:
SOLR 有一个名为 Cell 的模块。它使用 Tika 从文档中提取内容并使用 SOLR 对其进行索引。
从https://github.com/apache/lucene-solr/tree/master/solr/contrib/extraction 的来源中,我得出结论,Cell 将提取的原始文本文档文本放入名为“内容”的字段中。该字段由 SOLR 索引,但不存储。当您查询文档时,“内容”不会出现。
我的 SOLR 实例没有架构(我保留了默认架构)。
我正在尝试使用默认的UpdateRequestHandler(POST 到/solr/corename/update)来实现类似的行为。 POST 请求如下:
<add commitWithin="60000">
<doc>
<field name="content">lorem ipsum</field>
<field name="id">123456</field>
<field name="someotherfield_i">17</field>
</doc>
</add>
使用以这种方式添加的文档,content 字段被索引并存储。它出现在查询结果中。我不想这样;太浪费空间了。
关于 Cell 添加文档的方式我缺少什么?
【问题讨论】: