【问题标题】:Resume parser in Java [closed]在Java中恢复解析器[关闭]
【发布时间】:2014-02-24 17:41:42
【问题描述】:

我想解析简历以获得不同的标题和内容,包括项目符号、段落、网址。我有 .doc/.docx 格式的简历。迄今为止的研究已经导致

1.从 .doc 文件构建一个 xml 文件,然后
2. 使用 JDOM 构建一个 xml 解析器。

有没有其他方法或更好的方法来做到这一点? 一些有助于识别简历结构的算法?

【问题讨论】:

    标签: java xml xml-parsing jdom .doc


    【解决方案1】:

    有趣——我曾在一个解决方案中工作,我们使用 Solr 来识别我的身份。

    另一种方法是 - 您可以使用 Apache Solr / index 文档进入其中,并获取 faceted search 。

    唯一的挑战是如何构建库。这将比 Apache POI 更短更简单

    如果您需要帮助,请告诉我?

    【讨论】:

    • 我正在阅读有关 solr 的信息,但我不太明白它是如何工作的。我运行 start.jar,然后使用 post.jar 索引一个 csv 文件,但我从这里被卡住了。您还可以解释一下如何将它导入到我现有的 java 项目中吗?谢谢
    【解决方案2】:

    看起来你的方向是正确的。 简单的方法是: 一旦您识别信息并进一步移动,您只需使用计算空间的 +/- 步骤横向并识别结果。

    我确信您使用的是 NLP 方法,它可以帮助您获取接近度的数据,然后您可以根据您的经验消除噪音。

    或者简单地去建立一些已经建立起来的东西。我推荐您RChilli CV Parsing 或其他类似可雇佣性或 sovren 的人,并讨论您的需求。我相信你会得到一些信息

    谢谢 -K

    【讨论】:

    • 我现在正在使用 Apache POI,它支持 Java 中的 Word 文档。这样做更容易。
    • 所以你想使用 apache 工具……这很完美,但是你需要带很多插件,比如 apache 的 opennlp .. 使用它们,你会看到你开始获取数据
    • 我现在正在尝试实现 opennpl 的功能。谢谢您的提醒
    猜你喜欢
    • 2012-07-21
    • 2011-06-19
    • 1970-01-01
    • 2021-02-04
    • 2023-03-26
    • 2011-03-30
    • 2014-07-15
    • 2011-07-25
    • 2011-03-15
    相关资源
    最近更新 更多