【发布时间】:2016-08-05 06:21:30
【问题描述】:
所以我试图(只是为了好玩)根据电影的描述对电影进行分类,这个想法是“标记”电影,例如,给定的电影可能同时是“动作”和“幽默”。
通常在使用文本分类器时,您得到的是给定文本所属的类,但在我的情况下,我想将文本分配给 1 到 N 个标签。
目前我的训练集如下所示
+--------------------------+---------+
| TEXT | TAG |
+--------------------------+---------+
| Some text from a movie | action |
+--------------------------+---------+
| Some text from a movie | humor |
+--------------------------+---------+
| Another text here | romance |
+--------------------------+---------+
| Another text here | cartoons|
+--------------------------+---------+
| And some text more | humor |
+--------------------------+---------+
接下来我要做的是训练分类器来告诉我每个标签是否属于单个文本,例如,如果我想弄清楚一个文本是否被归类为“幽默”,我会结束使用以下训练集
+--------------------------+---------+
| TEXT | TAG |
+--------------------------+---------+
| Some text from a movie | humor |
+--------------------------+---------+
| Another text here |not humor|
+--------------------------+---------+
| And some text more | humor |
+--------------------------+---------+
然后我训练一个分类器,该分类器将了解文本是否幽默(其余标签采用相同的方法)。之后,我以总共 4 个分类器结束
- 动作/无动作
- 幽默/不幽默
- 浪漫/不浪漫
- 卡通/没有卡通
最后,当我得到一个新文本时,我将它应用于 4 个分类器中的每一个,对于每个分类器,如果这种分类超过某个特定值,则给我一个正分类(即给我 X 而不是 no-X)阈值(比如 0.9),然后我假设新文本属于标签 X,然后我对每个分类器重复相同的操作。
特别是我使用朴素贝叶斯算法,但同样可以应用于任何输出概率的算法。
现在的问题是,这种方法是否正确?我在这里做错了什么吗?从结果中我得到的东西似乎是有道理的,但我想要第二个意见。
【问题讨论】:
标签: machine-learning statistics text-classification naivebayes