【发布时间】:2016-03-14 14:31:51
【问题描述】:
我从互联网上获得了一段代码来分解熊猫数据框的分类列,但由于我是 python 新手,所以我很难理解它。
有人可以逐行解释以下代码。
train 和 test 是 pandas 数据帧,按顺序排列相同的列。
for (train_name, train_series), (test_name, test_series) in zip(train.iteritems(),test.iteritems()):
if train_series.dtype == 'O':
#for objects: factorize
train[train_name], tmp_indexer = pd.factorize(train[train_name])
test[test_name] = tmp_indexer.get_indexer(test[test_name])
我对@987654324@这一行特别感兴趣
另外请解释一下,pd.factorize 到底是做什么的?它是否将字符“A”、“AA”、“AAA”转换为不同的数字因子?
【问题讨论】: