【发布时间】:2018-02-22 07:04:12
【问题描述】:
我正在使用 python Recordlinkage 库构建一个机器学习模型,其中模型将使用预先匹配的数据进行训练。
下面是代码sn-p:
urltrain = "../Training_Set.data"
namestrain = ['TrueMatchID','System','ID','Col1','Col2']
golden_pair = ps.read_csv(urltrain, names=namestrain)
golden_pair = np.asarray(golden_pair).reshape(5000,5)
golden_pair = ps.DataFrame(golden_pair)
indexer = rl.BlockIndex(on='TrueMatchID')
golden_pair_index = indexer.index(golden_pair)
print(indexer)
# Initialize the classifier
logreg = rl.LogisticRegressionClassifier()
# Train the classifier
logreg.learn(golden_pair.all(), golden_pair_index)
我收到错误:
KeyError:“['TrueMatchID'] 不在索引中”
样本数据:
TrueMatchID System ID Col1 Col2
12345 2 736 1111.1 1111
12345 1 736 1111.4 1111
54321 1 739 2222.3 2222
54321 2 740 2222 2222.4
代码中似乎有什么问题?我对 Python 比较陌生,所以不确定我是否传递了一些错误的论点。
【问题讨论】:
标签: python record-linkage