【发布时间】:2012-02-16 05:32:48
【问题描述】:
在一个项目中,有一个模块接受一个 URL 并确定它是“电子商务”还是“非电子商务”网站。
我尝试了以下方法:
-
使用 Apache mahout,分类:URL ---> 获取 html 转储 ---> 预处理 html 转储 a) 删除所有 html 标签
b) 删除停用词(又名常用词),如 CDATA、href、value 和、of、等。
c) 训练模型,然后对其进行测试。
以下我用于训练的参数
bin/mahout trainclassifier \ -i training-data \ -o bayes-model \ > -type bayes -ng 1
测试:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
准确度我得到了 73%,而 cbayes 算法得到了 52%。
我正在考虑通过提取电子商务网站中的信息来改进预处理阶段,例如“结帐按钮”、“支付宝链接”、“价格/美元符号”、“货到付款”、“30 天”等文本保证”等。
关于如何提取此信息或以任何其他方式将网站预测为电子商务或非电子商务的任何建议?
【问题讨论】:
-
请在下一次更仔细地格式化您的问题。顺便说一句,70% 的准确率对于开始来说是相当不错的。
标签: java machine-learning classification mahout