【发布时间】:2018-06-03 03:11:21
【问题描述】:
tldr:如何将 pdf 文件夹转换为 CMYK 值(或 RGB 或任何类型的色标值)列表,最好是在 python 中。
我有一个文件夹,里面有大约 100,000 个文档。为了更轻松地对这些文档进行抽样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是 CMYK 覆盖率。 (最好)python中是否有任何方法或包可以计算PDF的CMYK覆盖率?
****编辑****
经过一些研究,我发现 GhostScript 应该提供我需要的功能,如果有人可以帮助我实现,我仍然非常感激。
【问题讨论】:
-
inkcov 设备将计算文档每一页上 CMYK 的覆盖率。恐怕我不明白你真正想要的是什么,你似乎想要每个文档(而不是每页)的 CMYK 覆盖率,这对我来说似乎没有用。我想你可以合计每页的覆盖率并除以页数得到平均值。
-
每页 CMYK 可以正常工作,不幸的是我只是在努力做到这一点
标签: python-3.x pdf ghostscript data-analysis cmyk