【发布时间】:2023-03-20 15:46:01
【问题描述】:
我有一个要求,我的源数据在 HDFS 中,并且有一个字段包含用户的技能。现在源文件具有归因于用户的各种技能,例如 - MANAGEMENT、JAVA、HADOOP、PIG、SQL、PERFORMANCE TUNING、C、业务咨询、销售等......
现在我的问题是我需要构建一个机器学习算法来检测所谓的技能中是否存在一些拼写错误。例如,如果列有销售而不是销售,或者像 hadoop 一样被拼写为 hadup。所以我想标准化这些东西。
我该怎么做呢?我不知道机器学习,但我愿意学习和编码。我在 Python 中工作很舒服。
任何建议我该怎么做?如果你们能提出想法,那就太好了!
【问题讨论】:
-
这是一个简单的编辑距离的工作,而不是机器学习。
-
我同意!右侧相关问题列表中的first item 甚至指出了我建议您研究的内容
-
@lejlot:编辑距离是一种可以使用的工具,但这不是全部答案。一些拼写错误不会很好地响应编辑距离。例如,考虑“礼节”的拼写“edicit”。此外,像“MGMT”而不是“MANAGEMENT”这样的常见缩写也适合编辑距离算法。
-
@Jim OP 询问“拼写错误”。缩写是不是拼写错误。我的回答只是为了简化说明,在这种基本情况下,这不是解决问题的好方法。
标签: string algorithm machine-learning string-matching