【问题标题】:Finding Euclidean Distance on String features [closed]在字符串特征上查找欧几里得距离
【发布时间】:2013-12-08 05:55:27
【问题描述】:

我正在尝试实现 K-Nearest Neighbors 算法。我的数据集的值如下:

164     5.60    3.17    30.98   Present 44  25.99   43.20   53  1

178     0.95    4.75    21.06   Absent  49  23.74   24.69   61  0

我打算使用欧几里得距离来计算两个向量之间的距离。我对如何计算两个字符串之间的 ED 有疑问,例如上例中的“存在”和“缺席”?

【问题讨论】:

  • 我正在尝试将其映射到如下 cmets 中建议的数值。还是要完成。完成后会更新!

标签: java machine-learning classification


【解决方案1】:

您应该根据具体的问题的域确定可能的值列表,例如“Absent”、“Present”、“Unknown”等。然后您应该将一个数值映射到每个字符串值,对应于问题的域。您应该考虑映射数值的距离。例如,我认为“Absent”和“Present”比“Absent”和“Unknown”更遥远。因此,我会映射像“Absent”:1、“Unknown”:0、“Present”:-1 这样的值。这在很大程度上取决于具体问题的领域。

然后您将使用数值计算欧几里得距离。

希望我能帮上忙!

【讨论】:

  • 是的,我同意 - 这是一个好方法。您也可以计算字符串之间的差异,但是将第一个字符串转换为第二个字符串(Levenstheim 距离)需要多少变化,而不是距离的含义。因此,更改为数字应该会有所帮助。
  • 你是对的。您描述的方法计算两个字符串之间的距离。但是你所指的距离,没有我的距离所具有的语义。您的意思是词法距离(如果该术语是正确的),它实际上表达了将第一个字符串转换为第二个字符串转换的难度。我建议的距离将根据整个单词的语义和问题的域来任意定义。只是为了澄清......
猜你喜欢
  • 2013-03-02
  • 2011-07-30
  • 2021-04-03
  • 2015-07-15
  • 2014-02-04
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多