【发布时间】:2019-07-06 05:47:00
【问题描述】:
我有一个 Lucene 索引,文档文本被“索引”但没有“存储”。
我正在使用 Luke v7.6.0,它非常适合“可视化”索引。
显然,因为我的文档文本已编入索引但未存储,我无法复制或查询“存储”值(没有),但我可以以某种方式将索引文本值提取到剪贴板或文本文件以允许我准确分析从我的文件中索引的内容?
【问题讨论】:
我有一个 Lucene 索引,文档文本被“索引”但没有“存储”。
我正在使用 Luke v7.6.0,它非常适合“可视化”索引。
显然,因为我的文档文本已编入索引但未存储,我无法复制或查询“存储”值(没有),但我可以以某种方式将索引文本值提取到剪贴板或文本文件以允许我准确分析从我的文件中索引的内容?
【问题讨论】:
您可以使用的一件事是手动检查 Lucene index files。
我怀疑最重要的是术语字典文件 (*.tim)
我已为没有存储值和术语的文档编制索引 - 字段电子邮件中的 test@test.com(TextField 和 标准 分析器)和字段名称中的 John(字符串字段)
在这之后,我用十六进制编辑器打开了 tim 文件,可以看到如下内容:
您可以清楚地看到由标准一标记化的test, test, com 的值,您还可以看到 John 仍然保持不变,因为我使用了 StringField。在我的其他示例中,我也能够看到小写的工作。
提醒一下,如果你想重复一遍 - 默认情况下,对于小索引,Lucene 会将所有内容放入复合文件中,我不喜欢在这个特定的调试中使用它。您可以通过 setUseCompoundFile(false) 禁用此功能
【讨论】: