【发布时间】:2023-08-12 13:31:01
【问题描述】:
我输入的内容:docx 以 byte64 格式记录原始字节。
我想要实现的目标:从此文档中提取文本以进行进一步处理。
我试图遵循这个答案:extracting text from MS word files in python
我的代码片段:
base64_bytes = input.encode('utf-8')
decoded_data = base64.decodebytes(base64_bytes)
document = Document(decoded_data)
docText = '\n\n'.join([paragraph.text.encode('utf-8') for paragraph in document.paragraphs])
document = Document(decoded_data) 行给了我以下错误:AttributeError: 'bytes' object has no attribute 'seek'decoded_data 的格式如下:b'PK\\x03\\x04\\x14\\x00\\x08\\x08\\x08\\x00\\x87@CP\\x00...
我应该如何格式化原始数据以从 docx 中提取文本?
【问题讨论】:
-
input.encode('utf-8')。这是您的实际代码吗?因为这是试图将函数对象input编码为 UTF-8 -
1) 您的标题为“
seek”,您的问题为“code”。它是哪一个? 2)Document到底是什么,它期望什么样的论点? -
你说你正在遵循Use the native Python docx module... 的建议,然后 -- 你确实不遵循它。您确实不需要需要“手动”编码、解码甚至显式加载文件。
-
@usr2564301 他们只在需要的地方发散,他们的输入是内存中的 base64 内容而不是磁盘上的文件。