【发布时间】:2014-10-03 09:15:48
【问题描述】:
我正在尝试使用 python-docx 模块 (pip install python-docx)
但这似乎很令人困惑,因为在github repo 测试样本中他们使用opendocx 函数,但在readthedocs 中他们使用Document 类。即使他们只展示了如何将文本添加到 docx 文件,而不是读取现有文件?
第一个 (opendocx) 不起作用,可能已被弃用。对于第二种情况,我尝试使用:
from docx import Document
document = Document('test_doc.docx')
print(document.paragraphs)
它返回了<docx.text.Paragraph object at 0x... >的列表
然后我做了:
for p in document.paragraphs:
print(p.text)
它返回了所有文本,但几乎没有丢失的东西。控制台上的文本中不存在所有 URL(CTRL+CLICK 转到 URL)。
有什么问题?为什么缺少 URL?
如何在不迭代循环的情况下获得完整的文本(类似于open().read())
【问题讨论】:
-
请注意旧的 GitHub 存储库 github.com/mikemaccana/python-docx 有“这个项目已移动!”在标题 1 中。
-
另外,所有编号的列表都不会导出为文本...
标签: python python-2.7 python-3.x python-docx