【发布时间】:2015-07-16 21:53:02
【问题描述】:
我正在尝试使用 apache Tika 将 .doc 文件解析和索引到 elasticsearch。 其实我的项目是为我的公司做一个简历搜索引擎。
由于我们有标准化的简历格式,我想在 Java 中使用 apache tika 解析这些简历。
基本上我有一个这样的 .doc 文件:
Jean Wisser avenue des Ternes
75017 Paris
Business Intelligence Consultant
Skills : Qlikview, SAS, Cognos, ...
Companies : IBM, Orange, ...
我想像这样提取和解析内容以在 elasticsearch 中对其进行索引:
XContentBuilder builder = jsonBuilder()
.startObject()
.field("Name", "Jean")
.field("Lastname", "Wisser")
.startObject("Adress")
.field("Street", "avenue des Ternes")
.field("City", "Paris")
......
.endObject()
.endObject()
实现这一目标的最佳方法是什么? 我应该使用 Tika、POI 还是其他方式?
【问题讨论】:
-
你的word文件的不同部分是否应用了不同的样式?还是只是随机/没有样式?
-
是的,它们有不同的样式,但我不知道如何提取它们。当我用 tika 提取内容时,我只得到纯文本
-
你怎么称呼蒂卡?如果您的要求正确,Tika 会很乐意为您提供 XHTML!
-
当我得到 XHTML 时,它只给了我基本的 或
标签,这些标签并不可靠,因为有时人们忘记将标题加粗或保持与以前相同的布局。相反,我使用正则表达式来识别简历中的块。
标签: parsing elasticsearch apache-poi apache-tika