【发布时间】:2019-03-15 09:36:27
【问题描述】:
我在一个标记化的句子中提取了基于 1-gram、2-gram、3-gram 的关键字
list_of_keywords = []
for i in range(0, len(stemmed_words)):
temp = []
for j in range(0, len(stemmed_words[i])):
temp.append([' '.join(x) for x in list(everygrams(stemmed_words[i][j], 1, 3)) if ' '.join(x) in set(New_vocabulary_list)])
list_of_keywords.append(temp)
我已经获得了关键字列表
['blood', 'pressure', 'high blood', 'blood pressure', 'high blood pressure']
['sleep', 'anxiety', 'lack of sleep']
如何通过删除列表中的所有子字符串来简化结果并保留:
['high blood pressure']
['anxiety', 'lack of sleep']
【问题讨论】:
-
所有子字符串会被空格分割吗?
['sub', 'string', 'substring']应该变成什么?