【发布时间】:2026-01-19 15:15:01
【问题描述】:
我想索引文本文件。经过大量搜索后,我了解了 Apache tika。现在在我研究 Apache tika 的一些站点中,我了解到 Apache tika 将文本转换为 XML 格式,然后将其发送到 solr。但是在转换它时只创建一个标签示例 ………… 现在我希望索引的文本文件是一个 tomcat 本地主机访问文件。此文件以 GB 为单位。我无法存储它和单个索引。我希望每一行都有 line-id ………… 这样我就可以轻松检索匹配的行。
这可以在 Apache Tika 中完成吗?
【问题讨论】:
标签: solr lucene apache-tika