【问题标题】:Convert a folder of PDFs into a csv of CMYK values将 PDF 文件夹转换为 CMYK 值的 csv
【发布时间】:2018-06-03 03:11:21
【问题描述】:

tldr:如何将 pdf 文件夹转换为 CMYK 值(或 RGB 或任何类型的色标值)列表,最好是在 python 中。

我有一个文件夹,里面有大约 100,000 个文档。为了更轻松地对这些文档进行抽样,我想对文档进行数据分析(聚类和异常检测),我想要的一个指标是 CMYK 覆盖率。 (最好)python中是否有任何方法或包可以计算PDF的CMYK覆盖率?

****编辑****

经过一些研究,我发现 GhostScript 应该提供我需要的功能,如果有人可以帮助我实现,我仍然非常感激。

【问题讨论】:

  • inkcov 设备将计算文档每一页上 CMYK 的覆盖率。恐怕我不明白你真正想要的是什么,你似乎想要每个文档(而不是每页)的 CMYK 覆盖率,这对我来说似乎没有用。我想你可以合计每页的覆盖率并除以页数得到平均值。
  • 每页 CMYK 可以正常工作,不幸的是我只是在努力做到这一点

标签: python-3.x pdf ghostscript data-analysis cmyk


【解决方案1】:

./gs -sDEVICE=inkcov -sOutputFile=out.txt input.pdf 应该为您提供文件中每个页面的 CMYK 覆盖率。

您可以使用-dQUIET -o - 而不是-sOutputFile 将输出发送到标准输出。

然后您需要一些取决于您的操作系统的批处理脚本。在 Windows 上类似:

for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt

应该从文件夹中取出每个文件,通过inkcov设备运行它并将输出发送到stdout,我们将其重定向到一个文件并使用>>,以便每次执行都附加到文件而不是覆盖以前的输出.

您当然需要在每次运行后删除输出文件。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-05-31
    • 2013-01-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-06
    • 2011-11-26
    相关资源
    最近更新 更多