【发布时间】:2015-06-12 21:30:45
【问题描述】:
问题是:当给定一段文本时,我想建议可能的主题。例如,一篇关于科比·布莱恩特的新闻文章会建议使用以下标签:“篮球”、“nba”、“体育”。
我有一个相当大的训练数据集 (350k+),其中包括文本主体和用户分配给文本的标签。大约有 40k,预先存在的主题;但是,许多主题中没有太多条目。我想说只有大约 5k 个主题中有超过 10 个条目。用户不能分配系统中尚不存在的主题。我也想包括那个
有人对算法的使用有什么建议吗?
如果有人对 python 库也有任何建议,那就太好了。
【问题讨论】:
-
您需要为问题添加更多内容。针对这个问题已经有很多方法。有很多取决于 (1) 数据大小 - 你有多少新闻文章 (2) 唯一标签的数量 - 语料库中有多少标签?数字是 10 与 1000 有很大的不同 (3) 到目前为止,您尝试和阅读了什么?在 Stack Overflow 上解释这一点很重要。并从问题中删除“谢谢”。它没有任何意义。
-
你的语料库中唯一标签的数量是多少?
-
40k。刚刚编辑了我的帖子。感谢您的建议
-
完美。我之前也解决过类似的问题
-
另外,只有大约 5,000 个标签中有超过 10 个条目。但是有些标签真的很大。哈哈
标签: python machine-learning nlp topic-modeling