【发布时间】:2018-06-27 16:20:30
【问题描述】:
可以使用 scikit-learn(或其他著名的 python 包)来获取一对 集合之间的 Jaccard 相似度吗?
我只看到 sklearn jaccard_similarity_score function 处理相等长度的向量/数组/张量,而我确实需要 intersection-over-union 计算,这是一个集合计算,而不是两个相同大小的张量的计算。
也许我应该使用the multi-label-binarizer, exemplified here,如果这是 scikit api 提供的预期方式。
当然,不用包就可以自己实现几行代码...
*这个问题不是家庭作业,是我为非技术观众制作的幻灯片,它说明了这里的重点。
只是想知道。
【问题讨论】:
-
输入是什么类型的集合?它们是哪个原生 Python 或 scipy/numpy 对象?请向我们展示一个带有可重现数据的小代码(随机即可)。
-
python 中的集合怎么样?
len(intsersect) / len(union)
标签: python scikit-learn statistics set multilabel-classification