【问题标题】:Pentaho Data Integration - Excel Writer Output File SizePentaho 数据集成 - Excel Writer 输出文件大小
【发布时间】:2016-03-01 11:47:24
【问题描述】:

PDI 在使用 Microsoft Excel Writer 写入 excel xlsx 文件方面效率低下。

如果数据是手动转换的,Pentaho 输出中转换的 excel 数据文件的大小似乎是原来的三倍。这种低效率是预期的还是有解决方法的。

具有相同转换输出的 CSV 文件的大小要小得多。我配置错了吗?

【问题讨论】:

  • 你能举出具体的例子吗?在我的小测试中,使用 PDI 创建的 xlsx 文件的大小是使用 Excel 创建的类似文件的 40%。
  • 最近的一个测试用例,CSV 文件输出为 5.7Mb,但 Excel 编写器输出 xlsx 文件为 8.9Mb。通常,xlsx 文件必须比 csv 文件小得多。是否有任何配置我们可能需要检查 Pentaho 中的 Microsoft excel writer。
  • 你能列出 zip 文件的内容,列出文件大小和压缩率吗?
  • 文件夹 - docProps、xl、_rels。文件 [Content_Types.xml]。那么在您执行的测试中,您的文件最终大小是否增加了 40% 或更小
  • Excel 创建的文件比 Pentaho 大 40%。

标签: excel pentaho etl kettle pentaho-spoon


【解决方案1】:

xlsx 文件的大小通常应小于 CSV,因为它们由压缩在 ZIP 文件中的 XML 数据组成。 Pentaho 的 Microsoft Excel Writer 使用 org.apache.poi.xssf.streaming.SXSSFWorkbookorg.apache.poi.xssf.usermodel.XSSFWorkbook 编写 xlsx 文件,它们会创建压缩文件,所以这不应该是您的问题。

要检查您可以使用 zip 实用程序检查的文件,查看文件大小和压缩率,看看是否存在错误。您也可以尝试在 Excel 中打开文件并重新保存,看看是否会产生较小的尺寸,这可能表明效率低。

【讨论】:

  • 我用excel打开并保存了文件并保存了,没有运气。
  • 结果如何?
  • 不幸的是,文件大小根本没有改变。感谢您的帮助
  • 文件大小没有改变的事实表明这在 Kettle 中可以正常工作,并且没有错误。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-12-09
  • 2015-03-06
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多