【发布时间】:2018-09-18 19:15:16
【问题描述】:
我正在尝试这个例子:https://recordlinkage.readthedocs.io/en/latest/notebooks/data_deduplication.html
下面是sn-p的代码:
import recordlinkage
from recordlinkage.datasets import load_febrl1
dfA = load_febrl1()
# Indexation step
indexer = recordlinkage.Index()
indexer.block(left_on='given_name')
candidate_links = indexer.index(dfA)
compare_cl = recordlinkage.Compare()
compare_cl.exact('given_name', 'given_name', label='given_name')
compare_cl.string('surname', 'surname', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.exact('date_of_birth', 'date_of_birth', label='date_of_birth')
compare_cl.exact('suburb', 'suburb', label='suburb')
compare_cl.exact('state', 'state', label='state')
compare_cl.string('address_1', 'address_1', threshold=0.85,
label='address_1')
features = compare_cl.compute(candidate_links, dfA)
matches = features[features.sum(axis=1) > 3]
print(len(matches))
我现在想单独打印已匹配的记录 ID。我尝试列出“匹配”的列名,但记录 ID 不是其中的一部分,我似乎无法找到获取的方法它完成了(我只想要单独的record_ids)
有没有办法检索record_ids,或者单独打印或者将其存储为列表或数组?
【问题讨论】:
标签: python record-linkage