【发布时间】:2016-09-16 19:34:54
【问题描述】:
我尝试解析超过 20,000 条记录的数据。每条记录有 4 个字段,前缀为 2 个字母数字值。下面是一个有 2 条记录的示例。我目前有一个基于此处链接的使用 Java 的臃肿解决方案:Parsing HTML Data using Java (DOM parse)。但我不打算使用该解决方案,因为它仅用于分离记录是过度的。有没有使用 VBS、Python 或任何其他语言的解决方案,可以根据我已经使用的逻辑分离出字段?还是另一种合乎逻辑的方法?
100000000 SMP008483
|--- Category Western
|--- Model Ford
|--- Asset Delivered Date ?
|--- Scheduled ?
100000001 SMP008484
|--- Category Eastern
|--- Model Chevrolet
|--- Asset Delivered Date ?
|--- Scheduled ?
预期输出在这里:
ID1 ID2 Category Model Asset Delivered Date Scheduled
100000000 SMP008483 Western Ford ? ?
100000001 SMP008484 Eastern Chevrolet ? ?
【问题讨论】:
-
如果您愿意使用另一种格式,我建议您使用 JSON,因为它可以为您提供所需的层次结构,并且很容易被多种语言阅读。通过打开文件、遍历每一行并使用字符串例程(如
text.split()或test.partition())来构建字典数组,不需要太多 Python 代码来解析它。 -
这些数据在哪里?它的格式是否与您显示的完全一样,纯文本?
-
@TimWilliams 更新原始问题中的数据(基于空格)后,数据现在与显示的完全相同。数据来自 TXT 文件。
-
如果你想解析它,那么它应该不会太难:你有可预测的 5 行块和看起来像固定宽度的格式。你试过什么吗?
标签: python excel parsing text vbscript