在Java中恢复解析器[关闭]答案

【问题标题】：Resume parser in Java [closed]在Java中恢复解析器[关闭]
【发布时间】：2014-02-24 17:41:42
【问题描述】：

我想解析简历以获得不同的标题和内容，包括项目符号、段落、网址。我有 .doc/.docx 格式的简历。迄今为止的研究已经导致

1.从 .doc 文件构建一个 xml 文件，然后
2. 使用 JDOM 构建一个 xml 解析器。

有没有其他方法或更好的方法来做到这一点？一些有助于识别简历结构的算法？

【问题讨论】：

【解决方案1】：

有趣——我曾在一个解决方案中工作，我们使用 Solr 来识别我的身份。

另一种方法是 - 您可以使用 Apache Solr / index 文档进入其中，并获取 faceted search 。

唯一的挑战是如何构建库。这将比 Apache POI 更短更简单

如果您需要帮助，请告诉我？

【讨论】：

我正在阅读有关 solr 的信息，但我不太明白它是如何工作的。我运行 start.jar，然后使用 post.jar 索引一个 csv 文件，但我从这里被卡住了。您还可以解释一下如何将它导入到我现有的 java 项目中吗？谢谢

【解决方案2】：

看起来你的方向是正确的。简单的方法是：一旦您识别信息并进一步移动，您只需使用计算空间的 +/- 步骤横向并识别结果。

我确信您使用的是 NLP 方法，它可以帮助您获取接近度的数据，然后您可以根据您的经验消除噪音。

或者简单地去建立一些已经建立起来的东西。我推荐您RChilli CV Parsing 或其他类似可雇佣性或 sovren 的人，并讨论您的需求。我相信你会得到一些信息

谢谢 -K

【讨论】：