【发布时间】:2014-02-24 17:41:42
【问题描述】:
我想解析简历以获得不同的标题和内容,包括项目符号、段落、网址。我有 .doc/.docx 格式的简历。迄今为止的研究已经导致
1.从 .doc 文件构建一个 xml 文件,然后
2. 使用 JDOM 构建一个 xml 解析器。
有没有其他方法或更好的方法来做到这一点? 一些有助于识别简历结构的算法?
【问题讨论】:
标签: java xml xml-parsing jdom .doc
我想解析简历以获得不同的标题和内容,包括项目符号、段落、网址。我有 .doc/.docx 格式的简历。迄今为止的研究已经导致
1.从 .doc 文件构建一个 xml 文件,然后
2. 使用 JDOM 构建一个 xml 解析器。
有没有其他方法或更好的方法来做到这一点? 一些有助于识别简历结构的算法?
【问题讨论】:
标签: java xml xml-parsing jdom .doc
有趣——我曾在一个解决方案中工作,我们使用 Solr 来识别我的身份。
另一种方法是 - 您可以使用 Apache Solr / index 文档进入其中,并获取 faceted search 。
唯一的挑战是如何构建库。这将比 Apache POI 更短更简单
如果您需要帮助,请告诉我?
【讨论】:
看起来你的方向是正确的。 简单的方法是: 一旦您识别信息并进一步移动,您只需使用计算空间的 +/- 步骤横向并识别结果。
我确信您使用的是 NLP 方法,它可以帮助您获取接近度的数据,然后您可以根据您的经验消除噪音。
或者简单地去建立一些已经建立起来的东西。我推荐您RChilli CV Parsing 或其他类似可雇佣性或 sovren 的人,并讨论您的需求。我相信你会得到一些信息
谢谢 -K
【讨论】: