【发布时间】:2013-11-18 12:37:50
【问题描述】:
f = open('file.txt')
print f.read()
这很简单,不是吗?这是有效的,因为 python 知道如何读取和写入.txt 文件。这些格式是如何工作的?我希望构建一个 python 程序来读取至少主要格式的文档(包括 pdf)、电子表格和演示文稿。
现在请不要告诉我,“继续使用 PDFMiner!”; “使用 IronPython 阅读 .doc!”。
我想了解自己,格式魔法是如何发生的。我想知道格式是如何工作的,以便我可以构建自己的“任何格式阅读器”。我不希望解决方案读取各种格式。我想知道它背后的理论。
非常感谢任何指向此类资源的链接,或有关阅读多种格式的帮助。
-谢谢
【问题讨论】:
-
继续阅读PDF specification;并实现你自己的解析器。