【问题标题】:Evaluating language identification methods评估语言识别方法
【发布时间】:2023-03-03 10:01:02
【问题描述】:

我的论文工作的一部分是评估已经可用的语言检测方法的数量,然后最终实现它们。 为此,我选择了以下方法,

  1. Cavnar 和 Trenkle 的基于 N-Gram 的文本分类
  2. Ted Dunning 的语言统计识别
  3. Teahan 和 Harper 使用基于压缩的语言模型进行文本分类
  4. 字符集检测
  5. 语言/编码检测的复合方法

我必须首先评估这些方法,并最好为每种方法提供一个准确的表格。我的问题是,为了找到每种方法的准确性,我是否需要继续使用训练数据构建语言模型,然后对其进行测试并记录准确性,或者我可以在这里遵循任何其他方法。尽管大多数研究已经包含了这些准确度表,但我不确定在我的教育中是否接受简单地抓取它并呈现在报告中。

感谢您对此的任何想法。

【问题讨论】:

  • 这似乎是你的论文顾问的问题。
  • 荟萃分析(编译和总结以前的研究)是可接受的研究,但在这种情况下可能不足以获得硕士学位。也很大程度上取决于您的主题。这是工业处理、计算机科学、机器学习、计算语言学还是什么?
  • 如果您说“评估,然后构建”,除了报告之前的结果以及(模糊地)推理优势和劣势之外,您将如何评估您尚未实施的东西?

标签: algorithm machine-learning nlp evaluation n-gram


【解决方案1】:

我还建议询问您的论文导师。实现所有这些将是大量工作,并且如果无法测试它们,很难真正比较它们。如果我没记错的话,最后三个在文献中没有得到很好的评价,所以很难比较他们的结果。我自己只实施(并评估了)其中的第一个。还有一个大问题是这个 LI 评估和实施在你的论文中占多大的比重?

【讨论】:

  • LI 评估和实施是我论文中的六个研究问题之一。我攻读的学士学位是数学和应用,整个学习主要集中在算法、数据结构和不同的编程语言上。因此,在我的论文中,我做了以下工作,分析了他们的工作流程
  • Continuation.. 1.分析 LSP 的工作流,2.分析开放的翻译 API,3.使用 API 为 LSP 实现服务器,4.向服务器添加 LI。所以实现 LI 并没有那么难,我只是在寻找一些方法来说明我选择方法的原因。
猜你喜欢
  • 1970-01-01
  • 2018-03-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多