【发布时间】:2020-04-10 15:09:26
【问题描述】:
我有一个 MS docx 文件,我需要逐页从中提取文本。 我尝试过使用 python-docx,但它可以提取整个文本,但不能提取分页。 我还将我的 docx 转换为 pdf,然后尝试提取文本。问题是,转换后 docx 的页面结构发生了变化。例如,在转换时,字体大小发生了变化,docx一页中的文本内容占用了pdf中的一页以上。
我正在寻找一种稳定的解决方案,可以从 docx 中提取页面文本(不转换为 pdf 对我的整个解决方案来说会更好)。有人可以帮我吗?
【问题讨论】:
标签: python python-3.x document extraction text-extraction