【发布时间】:2013-12-08 01:07:48
【问题描述】:
我正在处理从使用自定义 XML 结构的客户系统导出的文本可读文件。我需要能够从大量这些文件中解析和提取数据,而无需说明它们的结构。
我主要研究了文件结构,但是我正在为值的编码方式苦苦挣扎。我可以在系统中手动查找正确的值作为比较。一些例子:
Export Data = System Value
D411E848 = 500000
D40F86A = 100000
D41086A = 200000
我很确定前面的“D”是表示该字段是十进制或双精度值的标记。原因是所有数字字段都以“D”开头,所有文本字段都以“S”开头。以下“4”也可能是字段数据类型的一部分,因为所有数字字段似乎都以“D4”开头。
但是,将导出数据值的任何组合从十六进制转换为十进制都不会产生正确的结果。
任何想法如何进行转换?
额外的数据映射:
Value Export File
1 D3FF
2 D4
3 D4008
4 D401
5 D4014
6 D4018
7 D401C
8 D402
9 D4022
10 D4024
100 D4059
1000 D408F4
100000 D40F86A
500000 D411E848
500001 D411E8484
500002 D411E8488
500003 D411E848C
500004 D411E849
500005 D411E8494
500006 D411E8498
500007 D411E849C
500008 D411E84A
500009 D411E84A4
500010 D411E84A8
【问题讨论】:
-
没有什么明显的想法......您是否尝试过询问您的客户?
-
您还有更多数据吗?比如100001、200001、500001?
-
客户端有读取解压文件的工具,但不知道编码逻辑。对于我们当前的目的,我们希望直接读取文件,而不是通过工具。我将编辑问题以包含更多数据示例。
-
这在某些方面似乎与 4 的因数有关。虽然不太明显。有趣。
-
我编辑了您的问题以添加一些标签,以便人们更有可能找到此问题的答案。