【发布时间】:2020-10-06 15:49:45
【问题描述】:
我有一个字符串列表和一个看起来像这样的字符串:
mylist = ["the yam is sweet", "what is the best time to come", "who ate my food", "no empty food on the table", "what can I do to make you happy"] # about 20k data
myString1 = "Is yam a food" # String can be longer than this
myString2 = "should I give you a food"
myString3 = "I am not happy"
我想将每个 myString 与列表中的每个字符串进行比较,并收集三个不同列表中的相似度百分比。所以最终的结果会是这样的:
similar_string1 = [70, 0.5, 50, 55, 2]
similar_string2 = [50, 0.5, 70, 85, 2]
similar_string3 = [20, 15, 0, 5, 80]
所以 mystring1 将与 mylist 中的每个字符串进行比较并计算相似度百分比。与 myString2 和 myString3 相同。然后将这些百分比中的每一个收集到一个列表中,如上所示。
我读到有人可以使用 TF-IDF 对 mylist 和 mystring 进行矢量化,然后使用余弦相似度来比较它们,但我以前从未做过类似的事情,如果有人有想法、流程或代码,我会喜欢的帮助我开始。
谢谢
【问题讨论】:
标签: python neural-network nlp