【发布时间】:2018-03-31 09:16:50
【问题描述】:
我正在尝试根据词袋、页面布局、是否包含表格、是否有粗体标题等对页面进行分类,特别是搜索页面。在此前提下,我创建了一个 pandas.DataFrame像这样,对于每个文档:
我正在研究朴素贝叶斯和 SVM 算法,但我不确定哪一种更适合这个问题。变量是独立的。其中一些必须存在才能提高分数,其中一些与逆文档频率相匹配,例如totalCharCount。
有什么帮助吗?
非常感谢!
【问题讨论】:
标签: python machine-learning svm naivebayes document-classification