【发布时间】:2012-12-14 15:51:23
【问题描述】:
我正在写一篇关于人口普查局的 population projections 到 2060 年的文章,它包含一个 3.3 MB 的 .csv 文件(未压缩时)。
该文件由 539,781 个值组成,每个值是 5-7 位,占用 3,455,372 个字符。当我 gzip 文件时,它下降到 1550063 字节,即 1.47 MB。
我希望能够如实声明它可以安装在 3.5 英寸软盘上,最大容量为 1.44 MB。这只是一个参考点,而不是给需要说明如何操作的用户的建议。
有没有办法根据上面的字符数计算文本文件的理论大小?如果我们真的有一张 3.5 英寸的软盘和一个驱动器,是否有可能在不丢失信息的情况下将这个文件放在磁盘上?谢谢!
【问题讨论】:
-
计算熵是可能的(即使是自动化的,也很容易)。不过,需要检查文件的全部内容。 (如果我们知道值的范围,可能会高估:最小值和最大值是多少?)
-
最小为0,最大为420267733这里计算gist.github.com/4287201
标签: compression theory filesize floppy