【发布时间】:2017-07-27 11:38:56
【问题描述】:
我有一个 Python 字符串列表。
例如,
['FD for 5000','RD', 'Fixed Deposit for 10000', 'RD for 1000', 'Recurring deposit for 1000']
输入不必相同。列表中的字符串可以是任意顺序,列表可以是任意长度。
我想将包含单词及其缩写的字符串放在单独的列表中。
预期输出: {['FD 为 5000', '定存为 10000'], ['RD','RD for 1000', '定期存款 1000']}
我正在尝试将用户输入的 cmets 聚集在一起。一些用户可能会以缩写形式输入文本,而其他用户可能会以完整形式输入文本。因此,为了将相似的 cmets 组合在一起,我需要一种通用的方式。
不胜感激任何可能的解决方案。
【问题讨论】:
-
聚类(无监督统计方法)不能做到这一点。
-
@Anony-Mousse 我直观地理解为什么这是真的,但是有更正式的论点吗?你能指点我的一些阅读材料吗?
-
缩写不是聚类的一部分。
标签: python text text-analysis abbreviation