【问题标题】:Lucene index - Export/Query 'indexed' text field values that are not 'stored'Lucene 索引 - 导出/查询未“存储”的“索引”文本字段值
【发布时间】:2019-07-06 05:47:00
【问题描述】:

我有一个 Lucene 索引,文档文本被“索引”但没有“存储”。

我正在使用 Luke v7.6.0,它非常适合“可视化”索引。

显然,因为我的文档文本已编入索引但未存储,我无法复制或查询“存储”值(没有),但我可以以某种方式将索引文本值提取到剪贴板或文本文件以允许我准确分析从我的文件中索引的内容?

【问题讨论】:

    标签: indexing solr lucene


    【解决方案1】:

    您可以使用的一件事是手动检查 Lucene index files

    我怀疑最重要的是术语字典文件 (*.tim)

    我已为没有存储值和术语的文档编制索引 - 字段电子邮件中的 test@test.comTextField标准 分析器)和字段名称中的 John(字符串字段)

    在这之后,我用十六进制编辑器打开了 tim 文件,可以看到如下内容:

    您可以清楚地看到由标准一标记化的test, test, com 的值,您还可以看到 John 仍然保持不变,因为我使用了 StringField。在我的其他示例中,我也能够看到小写的工作。

    提醒一下,如果你想重复一遍 - 默认情况下,对于小索引,Lucene 会将所有内容放入复合文件中,我不喜欢在这个特定的调试中使用它。您可以通过 setUseCompoundFile(false) 禁用此功能

    【讨论】:

    • 感谢您的回答。我已经按照您的建议使用十六进制编辑器查看了我的索引,并且可以看到这些值。我现在将使用各种标记器,看看它对索引值有什么影响。你帮了大忙! :-)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-13
    • 1970-01-01
    • 2017-01-29
    • 1970-01-01
    相关资源
    最近更新 更多