【发布时间】:2014-01-24 02:40:41
【问题描述】:
我有一个数据集,我想对其进行解析以对其进行分析。我想拉出特定的列,然后在非均匀行之前和之后将它们分开。这是我的数据的示例:注意中间的三行与其他行的格式不匹配:
1386865618963 1 M subject_avatar 3.636229 1.000000 5.422941 30.200327 0.000000 0.000000
1386865618965 1 M subject_avatar 3.631835 1.000000 5.415390 30.200327 0.000000 0.000000
1386865618966 2 M subject_avatar 3.627432 1.000000 5.407826 30.200327 0.000000 0.000000
1386865618968 1 M subject_avatar 3.625223 1.000000 5.404030 30.200327 0.000000 0.000000
1386865618970 1 M subject_avatar 3.620788 1.000000 5.396411 30.200327 0.000000 0.000000
1386865618970 0 D 4345048336
1386865618970 0 D 4345763672
1386865618971 0 I BOXGEOM (45.0, 0.0, -45.0, 19.0, 3.5, 19.0) {'callback': <bound method YCEnvironment.dropoff of <navigate.YCEnvironment instance at 0x103065440>>, 'cbargs': (0, {'width': 1.75, 'image': <pyepl.display.Image object at 0x102f9da90>, 'height': 4.75, 'volbitSize': (0.5, 0.71999999999999997), 'name': 'Julia'}, {'width': 0.69999999999999996, 'name': 'Flower Patch', 'realpos': (45.0, 0.0, -45.0), 'image': <pyepl.display.Image object at 0x102fc3f50>, 'realsize': (7.0, 3.5, 7.0), 'type': 'store', 'volbitSize': (0.5, 0.5), 'height': 0.34999999999999998}), 'permiable': True} 4926595152
1386865618972 1 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865618992 2 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865618996 1 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865618998 2 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865619002 1 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865619005 1 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
1386865619008 1 M subject_avatar 3.621182 1.000000 5.396492 30.200327 0.000000 0.000000
我之前问了一个问题 (Parsing specific columns from a dataset in python) 来将这些数据解析成列,但是,这些列只显示列中的项目数,而不是项目本身。
我意识到这是两个不同的问题(分成列,在不统一的行之前和之后分开),但是任何有关解析的帮助都将不胜感激!
【问题讨论】:
-
“分离”是什么意思?您只是想删除 D & I 行,还是希望以某种方式对 Ms 的每个集群进行分组?
-
我想删除 D 和 I 行并将 Ms 聚类以显示发生在 D 和 I 行之前的 Ms 以及发生在 D 和 I 行之后的 Ms。