【发布时间】:2015-04-21 18:25:41
【问题描述】:
我有 .doc 文件和 .txt 文件,其中只有“1”作为内容。但是 .doc 文件需要 10.9kb 而 .txt 文件只需要 1 个字节。
【问题讨论】:
-
因为它们是不同的格式并存储不同的东西(例如,样式)
我有 .doc 文件和 .txt 文件,其中只有“1”作为内容。但是 .doc 文件需要 10.9kb 而 .txt 文件只需要 1 个字节。
【问题讨论】:
.txt 文件包含 1 个字节的纯文本字符,.doc 文件包含所有 Word 文档元数据,例如字体样式、大小、页边距等。
【讨论】:
自我探索:
将文档另存为“.docx”文件。
将 foo.docx 重命名为 foo.docx.zip(所有 Microsoft“X 文档”文件都是 zip)。
提取foo.docx.zip。
查看提取的 XML 文件 - 大多数文件与保存的 Word 文档中包含的其他 metadata 资源相关。
.doc 文件本质上只是.docx 文件的旧二进制版本,包含类似的元数据信息。这可以用二进制/十六进制编辑器查看。
(保存内容本身时也存在结构差异。)
文本文件只包含文字内容 - 没有其他内容 - 这就是为什么它与单字节编码的内容大小相同。
【讨论】: