【发布时间】:2023-03-03 10:01:02
【问题描述】:
我的论文工作的一部分是评估已经可用的语言检测方法的数量,然后最终实现它们。 为此,我选择了以下方法,
- Cavnar 和 Trenkle 的基于 N-Gram 的文本分类
- Ted Dunning 的语言统计识别
- Teahan 和 Harper 使用基于压缩的语言模型进行文本分类
- 字符集检测
- 语言/编码检测的复合方法
我必须首先评估这些方法,并最好为每种方法提供一个准确的表格。我的问题是,为了找到每种方法的准确性,我是否需要继续使用训练数据构建语言模型,然后对其进行测试并记录准确性,或者我可以在这里遵循任何其他方法。尽管大多数研究已经包含了这些准确度表,但我不确定在我的教育中是否接受简单地抓取它并呈现在报告中。
感谢您对此的任何想法。
【问题讨论】:
-
这似乎是你的论文顾问的问题。
-
荟萃分析(编译和总结以前的研究)是可接受的研究,但在这种情况下可能不足以获得硕士学位。也很大程度上取决于您的主题。这是工业处理、计算机科学、机器学习、计算语言学还是什么?
-
如果您说“评估,然后构建”,除了报告之前的结果以及(模糊地)推理优势和劣势之外,您将如何评估您尚未实施的东西?
标签: algorithm machine-learning nlp evaluation n-gram