【问题标题】:What causes PHPExcel to use so much memory when reading a file while using a chunked filter?是什么导致 PHPExcel 在使用分块过滤器读取文件时使用这么多内存?
【发布时间】:2015-05-15 05:40:43
【问题描述】:

像许多其他人一样,我在读取文件(将其转换为 MySQL)时一直在努力解决 PHPExcel 内存使用问题。

当然我已经尝试了很多地方提到的常用的东西,并且已经能够将内存效率提高至少 40%。这包括使用自定义分块读取器类,将分块读取器实例移到读取循环之外等。

我的测试服务器上有 16G 的 RAM,并在 PHP 中分配了 2G 的最大内存使用量。对于约 200K 行以下的文件,PHPExcel 将工作(缓慢但肯定)。一旦超过一定大小,脚本就会简单地将“Killed”输出到shell。日志显示内核杀死了 PHP,因为它使用了太多的内存。在使用 top 命令查看 CPU 和内存使用情况时,我可以看到可用内存和可用交换空间直线下降,而内存使用和交换空间使用量猛增。

在阅读了很多关于 PHPExcel 的内容并查看了一些源文件后,我得出的结论是,每个单元格都存储了大量数据,而这些数据在仅处理文本时是不需要的。使用:

$objReader->setReadDataOnly(true);

有点帮助,但并没有真正做那么多......但是,使用分块读取器并将块大小设置为较小然后使用 unset() 清理大变量在理论上应该可行。我知道 PHPExcel 每次都必须读取整个文件,但它不应该将它存储在内存中,对吗?

这是我目前使用的代码:

<?php

date_default_timezone_set("America/New_York");
set_time_limit(7200);
ini_set('memory_limit', '2048M');

include_once("classes/PHPExcel/PHPExcel/IOFactory.php");

$inputFileName = "/PATH/TO/FILE.xlsx";
$inputFileType = PHPExcel_IOFactory::identify($inputFileName);
$worksheetName = "Sheet1";

class chunkReadFilter implements PHPExcel_Reader_IReadFilter
{
    private $_startRow = 0;
    private $_endRow = 0;

    public function __construct($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow = $startRow + $chunkSize;
    }

    public function setRows($startRow, $chunkSize)
    {
        $this->_startRow = $startRow;
        $this->_endRow   = $startRow + $chunkSize;
    }

    public function readCell($column, $row, $worksheetName = '')
    {
        if (($row == 1) || ($row >= $this->_startRow && $row < $this->_endRow))
        {
            return true;
        }
        return false;
    }
}


$objReader = PHPExcel_IOFactory::createReader($inputFileType);
$objReader->setReadDataOnly(true);

$chunkSize = 1000;

echo "Got here 1\n";

$chunkFilter = new chunkReadFilter(2,$chunkSize);


for ($startRow = 2; $startRow <= 378767; $startRow += $chunkSize)
{
    $chunkFilter->setRows($startRow, $chunkSize);
    $objReader->setReadFilter($chunkFilter);
    echo "Got here 2\n";

    $objPHPExcel = $objReader->load($inputFileName);
    echo "Got here 3\n";

    $sheet = $objPHPExcel->getSheetByName($worksheetName);
    echo "Got here 4\n";

    $highestRow = $sheet->getHighestRow(); 
    $highestColumn = $sheet->getHighestColumn();
    echo "Got here 5\n";

    $sheetData = $sheet->rangeToArray("A".$startRow.":".$highestColumn.$highestRow, NULL, TRUE, FALSE);
    print_r($sheetData);
    echo "\n\n";
}

?>

哪些输出:

[USER@BOX Directory]# php PhpExcelBigFileTest.php
Got here 1
Got here 2
Killed

这导致了一个问题:PHPExcel 是否试图将整个文件加载到内存中而不管我的过滤器如何?如果是这样,为什么 PHP 没有在 2G 内存使用时停止它,而是让它变得如此糟糕以至于内核不得不杀死 PHP?

【问题讨论】:

  • 整个文件总是加载到内存中;分块确定哪些单元格从该文件加载到 PHPExcel 对象中
  • 啊,我明白了!有没有办法加载避免将整个文件加载到内存中?这些大 Excel 文件是杀手...
  • '不怕......直到我有时间从 SimpleXML 切换到 XMLReader 的那一天
  • 您是否也将单元缓存视为减少内存占用的一种方式?
  • 这是有道理的。我没有意识到它使用了 SimpleXML。我没有找到任何关于单元缓存的信息,我该怎么做?

标签: php memory phpexcel centos6.5


【解决方案1】:

PHPExcel 目前使用 SimpleXML 来读取基于 XML 的格式,例如 OfficeOpenXML (xlsx)、OASIS (.odc) 和 Gnumeric,而不是内存效率更高的 XMLReader。这意味着压缩存档中的每个文件 XML 文件都直接加载到 PHP 内存中以进行解析和构建 PHPExcel 对象。虽然单元格分块通过减少 PHPExcel 对象所使用的内存来减少它所持有的单元格数量到由读取过滤器定义的单元格的数量,但它仍然需要将整个文件加载到内存中以便 SimpleXML 解析它。

开发团队已经查看了直接从压缩存档到 PHP 的 pull-parser XMLReader 的流数据,初步实验表明这是非常节省内存的;但它也是一个主要的代码重写,以反映电子表格阅读器使用这种方法;由于开发资源有限,可用时间有限,这不是一项可以轻易完成的任务。

除了通过仅将部分单元格加载到 PHPExcel 对象中来减少内存之外,您可能还想查看单元格缓存。这在documentation 中进行了描述,并允许以减少它们占用的内存的方式存储单元对象。提供了不同的方法以适应不同的系统,并且节省的内存量会根据 PHP 版本和配置而有所不同,因此您需要确定哪些方法最适合您自己的系统。使用单元缓存也有速度成本。通常,SQLite 是最节省内存的方法,但也是最慢的方法之一。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-08-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-10-09
    • 2013-06-06
    相关资源
    最近更新 更多