【发布时间】:2015-08-25 19:59:18
【问题描述】:
给定 2 个代码 sn-ps,我想检查它们在功能上是否相似。通过功能相似性,我的意思是当提供相同的输入时它们应该产生相同的输出。 我正在从给定的代码 sn-p 中提取特征集:
- 句法方法:使用基本的 NLP 技术,如词干提取、拆分等。
- 语义方法:使用 AST 规范化代码 sn-p 例如:将“for”转换为“while”等。
在形成标记后,我使用主题建模算法(如潜在狄利克雷分配、概率潜在语义索引等)在给定代码 sn-p 中查找主题并将其与其他代码 sn-p 的主题匹配。虽然我知道这是一个难题,但该方法的准确性远低于我的预期。
如果我能获得任何关于更有效的算法/技术的指针/想法,那就太好了。
编辑:我不期待通用方法。任何能给出具有一定精度的近似结果的方法都可以。
【问题讨论】:
标签: machine-learning nlp artificial-intelligence language-features feature-extraction