【发布时间】:2017-09-18 20:20:06
【问题描述】:
我需要使用零个或多个类别/标签(5 个标签,如金融、技术等)对网站文本进行分类。我的问题是处理不属于这些标签之一的文本。
我尝试了 ML 库(maxent、naive bayes),但它们错误地将“其他”文本与其中一个标签匹配。如何训练模型来处理“其他”文本? “其他”标签太宽泛了,不可能挑出一个有代表性的样本。
由于我没有 ML 背景,也没有太多时间来构建良好的训练集,因此我更喜欢更简单的方法,例如术语频率计数,使用预定义的术语列表来匹配每个标签。但是通过计数,我如何确定相关性分数,即文本是否实际上是那个标签?我没有语料库,无法使用 tf-idf 等。
【问题讨论】:
-
为什么不能使用 TF-IDF?这是获取文本比较指标的规范工具。
-
顺便说一句,你一直说你没有这方面的背景。这不是借口:您需要发展这方面的技能来解决您的问题。 StackOverflow不是编码服务。据我所知,您的范例没有预先打包的解决方案——而且 SO 不是寻找它们的地方。
-
TF-IDF 可能是最可行的——感谢您指出。我的团队希望避免涉及收集训练数据的解决方案,因此我询问是否有更简单的解决方案。
标签: machine-learning text-classification multilabel-classification