【问题标题】:PHP library for creating/manipulating fixed-width text files用于创建/操作固定宽度文本文件的 PHP 库
【发布时间】:2011-08-12 15:42:31
【问题描述】:

我们有一个用于时间跟踪、工资单和 HR 的 Web 应用程序。因此,我们必须编写大量固定宽度的数据文件以导出到其他系统(州税申报、ACH 文件等)。有谁知道一个很好的库,您可以在其中定义记录类型/结构,然后在 OOP 范式中对它们进行操作?

这个想法将是一个你处理规范的类,然后使用所述规范的一个实例。即:

$icesa_file = new FixedWidthFile();
$icesa_file->setSpecification('icesa.xml');
$icesa_file->addEmployer( $some_data_structure );

icesa.xml 是一个包含规范的文件,尽管您可以使用 OOP 调用自己定义它:

$specification = new FixedWidthFileSpecification('ICESA');
$specification->addRecordType(
    $record_type_name = 'Employer',
    $record_fields = array(
         array('Field Name', Width, Vailditation Type, options)
         )
     );

编辑:我不是在寻找关于如何编写这样一个库的建议——我只是想知道一个是否已经存在。谢谢!!

【问题讨论】:

  • “固定宽度数据文件”实际上是指每条记录具有预设长度的文本文件吗?自从我的 Amiga AMOS 时代以来,我没有写过任何一篇:P
  • 固定宽度意味着有一个或多个“记录类型”的规范,它定义了具有一定宽度的字段。每条记录都有一个标识符,告诉解释器如何“切分”行的其余部分。换行符表示新记录。例如,查看 ICESA 格式。

标签: php text-files edi fixed-width


【解决方案1】:

我不知道有哪个库可以完全满足您的需求,但是滚动您自己的类来处理这个问题应该是相当简单的。假设您主要对以这些格式编写数据感兴趣,我会使用以下方法:

(1) 为固定宽度的字符串编写一个轻量级的格式化程序类。它必须支持用户定义的记录类型,并且在允许的格式方面应该是灵活的

(2) 为您使用的每种文件格式实例化此类并添加所需的记录类型

(3) 使用此格式化程序来格式化您的数据

按照您的建议,您可以在 XML 中定义记录类型并在步骤 (2) 中加载此 XML 文件。我不知道您在使用 XML 方面的经验如何,但根据我的经验,XML 格式经常会引起很多麻烦(可能是由于我自己对 XML 的无能)。如果您打算只在 PHP 程序中使用这些类,那么在 XML 中定义格式并没有什么好处。如果您还需要在许多其他应用程序中使用文件格式定义,那么使用 XML 是一个不错的选择。

为了说明我的想法,我认为你会如何使用这个建议的格式化程序类:

<?php
include 'FixedWidthFormatter.php' // contains the FixedWidthFormatter class
include 'icesa-format-declaration.php' // contains $icesaFormatter
$file = fopen("icesafile.txt", "w");

fputs ($file, $icesaFormatter->formatRecord( 'A-RECORD', array( 
    'year' => 2011, 
    'tein' => '12-3456789-P',
    'tname'=> 'Willie Nelson'
)));
// output: A2011123456789UTAX     Willie Nelson                                     

// etc...

fclose ($file);
?>

文件icesa-format-declaration.php 可以包含格式声明,如下所示:

<?php
$icesaFormatter = new FixedWidthFormatter();
$icesaFormatter->addRecordType( 'A-RECORD', array(
    // the first field is the record identifier
    // for A records, this is simply the character A
    'record-identifier' => array(
        'value' => 'A',  // constant string
        'length' => 1 // not strictly necessary
                      // used for error checking
    ),
    // the year is a 4 digit field
    // it can simply be formatted printf style
    // sourceField defines which key from the input array is used
    'year' =>  array(
        'format' => '% -4d',  // 4 characters, left justified, space padded
        'length' => 4,
        'sourceField' => 'year'
    ),
    // the EIN is a more complicated field
    // we must strip hyphens and suffixes, so we define
    // a closure that performs this formatting
    'transmitter-ein' => array(
        'formatter'=> function($EIN){
            $cleanedEIN =  preg_replace('/\D+/','',$EIN); // remove anything that's not a digit
            return sprintf('% -9d', $cleanedEIN); // left justified and padded with blanks
        },
        'length' => 9,
        'sourceField' => 'tein'
    ),
    'tax-entity-code' => array(
        'value' => 'UTAX',  // constant string
        'length' => 4
    ),
    'blanks' => array(
        'value' => '     ',  // constant string
        'length' => 5
    ),
    'transmitter-name' =>  array(
        'format' => '% -50s',  // 50 characters, left justified, space padded
        'length' => 50,
        'sourceField' => 'tname'
    ),
    // etc. etc.
));
?>

那么你只需要 FixedWidthFormatter 类本身,它可能看起来像这样:

<?php

class FixedWidthFormatter {

    var $recordTypes = array();

    function addRecordType( $recordTypeName, $recordTypeDeclaration ){
        // perform some checking to make sure that $recordTypeDeclaration is valid
        $this->recordTypes[$recordTypeName] = $recordTypeDeclaration;
    }

    function formatRecord( $type, $data ) {
        if (!array_key_exists($type, $this->recordTypes)) {
            trigger_error("Undefinded record type: '$type'");
            return "";
        }
        $output = '';
        $typeDeclaration = $this->recordTypes[$type];
        foreach($typeDeclaration as $fieldName => $fieldDeclaration) {
            // there are three possible field variants:
            //  - constant fields
            //  - fields formatted with printf
            //  - fields formatted with a custom function/closure
            if (array_key_exists('value',$fieldDeclaration)) {
                $value = $fieldDeclaration['value'];
            } else if (array_key_exists('format',$fieldDeclaration)) {
                $value = sprintf($fieldDeclaration['format'], $data[$fieldDeclaration['sourceField']]);
            } else if (array_key_exists('formatter',$fieldDeclaration)) {
                $value = $fieldDeclaration['formatter']($data[$fieldDeclaration['sourceField']]);
            } else {
                trigger_error("Invalid field declaration for field '$fieldName' record type '$type'");
                return '';
            }

            // check if the formatted value has the right length
            if (strlen($value)!=$fieldDeclaration['length']) {
                trigger_error("The formatted value '$value' for field '$fieldName' record type '$type' is not of correct length ({$fieldDeclaration['length']}).");
                return '';
            }
            $output .= $value;
        }
        return $output . "\n";
    }
}


?>

如果您还需要读取支持,也可以扩展 Formatter 类以允许读取,但这可能超出了此答案的范围。

【讨论】:

  • 感谢您的意见和想法。问题是我知道如何编写这样的课程,并且问题的目的是避免在已有可用的东西的情况下重新发明轮子。谢谢!
【解决方案2】:

我以前很乐意使用this class 进行类似用途。它是一个 php-classes 文件,但它的评价很高,并且已经被许多人尝试和测试过。它不是新的(2003 年),但无论如何它仍然做得非常好 + 有一个非常体面和干净的 API,看起来有点像您发布的示例添加了许多其他好东西。

如果您可以忽略示例中的德语用法和年龄因素 -> 这是一段非常不错的代码。

Posted from the example:


//CSV-Datei mit Festlängen-Werten 
echo "<p>Import aus der Datei fixed.csv</p>"; 
$csv_import2 = new CSVFixImport; 
$csv_import2->setFile("fixed.csv"); 
$csv_import2->addCSVField("Satzart", 2); 
$csv_import2->addCSVField("Typ", 1); 
$csv_import2->addCSVField("Gewichtsklasse", 1); 
$csv_import2->addCSVField("Marke", 4); 
$csv_import2->addCSVField("interne Nummer", 4); 


$csv_import2->addFilter("Satzart", "==", "020"); 
$csv_import2->parseCSV(); 
if($csv_import->isOK()) 
{ 
    echo "Anzahl der Datensätze: <b>" . $csv_import2->CSVNumRows() . "</b><br>"; 
    echo "Anzahl der Felder: <b>" . $csv_import2->CSVNumFields() . "</b><br>"; 
    echo "Name des 1.Feldes: <b>" . $csv_import2->CSVFieldName(0) . "</b><br>"; 

    $csv_import2->dumpResult(); 
}

我的 2 美分,祝你好运!

【讨论】:

  • 这看起来很有希望——我将不得不翻译文档(德语有点生疏),看起来它有一些需要修复的 php4isms。谢谢!
【解决方案3】:

我不知道任何专门处理固定宽度记录的 PHP 库。但是,如果您可以自己分解文件的每一行,那么有一些很好的库可以过滤和验证一行数据字段。

看看 Zend Framework 中的 Zend_FilterZend_Validate 组件。我认为这两个组件都是相当独立的,只需要 Zend_Loader 即可工作。如果您愿意,您可以将这三个组件从 Zend Framework 中提取出来并删除其余部分。

Zend_Filter_Input 就像过滤器和验证器的集合。您为数据记录的每个字段定义一组过滤器和验证器,您可以使用它们来处理数据集的每个记录。已经定义了许多有用的过滤器和验证器,并且编写自己的接口非常简单。我建议使用 StringTrim 过滤器来删除填充字符。

要将每一行分解为字段,我将扩展 Zend_Filter_Input 类并添加一个名为 setDataFromFixedWidth() 的方法,如下所示:

class My_Filter_Input extends Zend_Filter_Input
{
    public function setDataFromFixedWidth($record, array $recordRules)
    {
        if (array_key_exists('regex', $recordRules) {
            $recordRules = array($recordRules);
        }

        foreach ($recordRules as $rule) {
            $matches = array();
            if (preg_match($rule['regex'], $record, $matches)) {
                $data = array_combine($rule['fields'], $matches);
                return $this->setData($data);
            }
        }

        return $this->setData(array());
    }

}

并使用简单的正则表达式和匹配的字段名称定义各种记录类型。 ICESA 可能看起来像这样:

$recordRules = array(
    array(
        'regex'  => '/^(A)(.{4})(.{9})(.{4})/',  // This is only the first four fields, obviously
        'fields' => array('recordId', 'year', 'federalEin', 'taxingEntity',),
    ),
    array(
        'regex'  => '/^(B)(.{4})(.{9})(.{8})/',
        'fields' => array('recordId', 'year', 'federalEin', 'computer',),
    ),
    array(
        'regex'  => '/^(E)(.{4})(.{9})(.{9})/',
        'fields' => array('recordId', 'paymentYear', 'federalEin', 'blank1',),
    ),
    array(
        'regex'  => '/^(S)(.{9})(.{20})(.{12})/',
        'fields' => array('recordId', 'ssn', 'lastName', 'firstName',),
    ),
    array(
        'regex'  => '/^(T)(.{7})(.{4})(.{14})/',
        'fields' => array('recordId', 'totalEmployees', 'taxingEntity', 'stateQtrTotal'),
    ),
    array(
        'regex'  => '/^(F)(.{10})(.{10})(.{4})/',
        'fields' => array('recordId', 'totalEmployees', 'totalEmployers', 'taxingEntity',),
    ),
);

然后您可以逐行读取数据文件并将其输入到输入过滤器中:

$input = My_Filter_Input($inputFilterRules, $inputValidatorRules);
foreach (file($filename) as $line) {
    $input->setDataFromFixedWidth($line, $recordRules);
    if ($input->isValid()) {
        // do something useful
    }
    else {
        // scream and shout
    }
}

要格式化数据以写回文件,您可能需要编写自己的 StringPad 过滤器来包装内部 str_pad 函数。然后对于数据集中的每条记录:

$output = My_Filter_Input($outputFilterRules);
foreach ($dataset as $record) {
    $output->setData($record);
    $line = implode('', $output->getEscaped()) . "\n";
    fwrite($outputFile, $line);
}

希望这会有所帮助!

【讨论】:

    【解决方案4】:

    我认为您需要的信息比您提供的更多: 您想为记录和列定义使用哪种数据结构? 看起来这是一个相当专业的类,需要针对您的特定用例进行定制。

    我编写了一个 PHP 类,它基本上可以满足您的需求,但依赖于我们系统中使用的其他类。如果您可以提供您想要使用的数据结构类型,我可以检查它是否适合您并将其发送过来。

    注意:我之前从公共计算机上发布了这个答案,但我无法让它看起来像是来自我(它显示为一些随机用户)。如果您看到它,请忽略“约翰”的答案。

    【讨论】:

    • 类型因规范而异;大多数情况下,它们是 AlphaNumeric、Numeric 或 Printable Character。有些需要右对齐,0 填充,有些需要左对齐的空间,等等。我更新了这个问题,让我更了解我在寻找什么。
    【解决方案5】:

    如果这是带有分隔字段的文本文件, - 您需要自己编写。 可能这不是一个问题。良好的组织,将节省大量时间。

    1. 您需要定义结构的通用方法。 IE。 xml。
    2. 您需要生成一些东西...特别是我更喜欢 Smarty 模板。

    所以这个:

       <group>
    
          <entry>123</entry>
    
          <entry>123</entry>
    
          <entry>123</entry>
    
        </group>
    

    可以使用此模板轻松解释为测试:

    {section name=x1 loop=level1_arr}
    
    {--output root's--}
    
      {section name=x2 loop=level1_arr[x1].level2_arr}
    
         {--output entry's--}
    
      {/section}
    
    {/section}
    

    这只是想法。

    但想象一下:

    1. 你需要xml
    2. 您需要模板

    即2个定义来抽象任何文本结构

    【讨论】:

    • @Bryan Agee:组织是正确的英语,美式英语使用 z,但 @softm 是欧洲的。
    【解决方案6】:

    也许 dbase 函数是您想要使用的。它们不是 OOP,但构建一个对 dbase 集中提供的函数起作用的类可能不会太难。

    查看下面的链接,了解 PHP 中可用的 dbase 功能的详细信息。如果您只是想创建一个文件以导入另一个系统,这些功能应该适合您。只要确保你注意警告。一些关键警告是:

    • 不支持索引或备注字段。
    • 不支持锁定。
    • 修改同一个 dBase 文件的两个并发 Web 服务器进程很可能会破坏您的数据库。

    http://php.net/manual/en/book.dbase.php

    【讨论】:

    • “定长记录”和“定宽文件格式”有天壤之别; dbase 用于管理前者。
    • 糟糕!我的坏,有点。当我在您的问题中看到固定宽度一词时,它自动让我想到了 dbase。也许如果您在问题中指定了 ICESA 格式,那么一切都会很清楚,我不会浪费我的时间。话虽如此,我已经使用 PHP 超过 7 年了,从未见过对这种格式的引用或任何支持它的库。
    • ICESA 就是一个例子;还有Federal 132格式、MMREF-1 W2/W3、NACHA等
    • 是时候在暑假聘请一位聪明的大学实习生,让他/她编写一些代码来完成这项工作。 ; )
    【解决方案7】:

    很抱歉,我无法通过直接课程为您提供帮助

    那么我是如何在示例中看到这项工作的:

    php 读取数据

    php 然后使用一个标志(例如 $_GET['type'])来知道如何输出数据例如打印机、HTML、Excel

    所以你为每个版本构建模板文件,然后根据你加载的标志和使用定义的模板,至于固定宽度,这是一个 HTML 东西而不是 PHP,所以这应该在模板 CSS 中完成

    然后,您可以根据任何用户的需要输出您的数据,

    Smarty 模板对此非常有用,然后在需要时发送内容类型的 php 标头。

    【讨论】:

    • 请重新阅读问题——固定宽度与html或css无关——它是纯字符级别的。
    • 它在哪里说我得到的最好的字符级别是“固定宽度数据文件”
    猜你喜欢
    • 2014-02-22
    • 1970-01-01
    • 2012-08-16
    • 2010-11-29
    • 1970-01-01
    • 2013-01-01
    • 2021-10-24
    • 2016-01-18
    • 1970-01-01
    相关资源
    最近更新 更多