【问题标题】:extract text from first page of a word document Using python使用python从word文档的第一页提取文本
【发布时间】:2018-09-25 13:46:19
【问题描述】:

我正在尝试寻找可以从 word 文档的第一页中提取文本的 Python 脚本。我找到了可以做段落但不能做页面的函数,这不是我需要的。

【问题讨论】:

    标签: python ms-word


    【解决方案1】:

    问题是,docx 格式的页面是纯虚拟的。 MS Word 根据文本大小和其他参数自行决定放置页面限制器的位置和时间。

    当用户明确设置分页符时,会更容易一些,因为可以像there 中描述的那样找到它们。

    作为一种解决方法,您可以计算每页的行数并自行修剪,但据我所知,没有“简单”的方法可以用 1 行代码完成所有操作。

    【讨论】:

    • 我明白了。我不认为有分页符。我可以将word doc转换为pdf,然后使用pdftotext函数阅读第一页吗?
    • 这样做了(将 .doc 转换为 .pdf 并阅读第一页)并且成功了!
    • 很高兴知道这一点!祝你一切顺利。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-10
    • 1970-01-01
    • 2015-02-12
    • 1970-01-01
    • 2010-11-12
    • 1970-01-01
    相关资源
    最近更新 更多