【发布时间】:2020-05-16 12:28:40
【问题描述】:
我有一个包含数百页的 MS Word 文档。
除了每个页面上唯一的人名之外,每个页面都是相同的。 (一页是一个用户)。
我想获取这个 word 文档并自动化处理以单独保存每一页,因此我最终会得到数百个 word 文档,每个人一份,而不是一个由每个人组成的文档,然后我可以分发给不同的人。
我一直在使用模块 python-docx 在这里找到:https://python-docx.readthedocs.io/en/latest/
我正在为如何完成这项任务而苦苦挣扎。
据我研究,不可能遍历每个页面,因为页面不是在 .docx 文件本身中确定的,而是由程序(即 Microsoft Word)生成的。
但是 python-docx 可以解释文本,并且由于每个页面都是相同的,当您看到此文本(给定页面上的最后一段文本)时,我不能对 python 说,认为这是页面的结尾,并且此后的任何内容都是一个新页面。
理想情况下,如果我可以编写一个循环来考虑这一点并创建一个直到该点的文档,并在所有页面上重复,那就太好了。它还需要拍摄所有格式/图片。
我不反对其他方法,例如如果可以的话,首先转换为 PDF。
有什么想法吗?
【问题讨论】:
-
@scanny 你能给出你的意见吗?
-
能否分享两个连续示例页面的 Open XML 标记?
标签: python python-3.x xml openxml python-docx