【发布时间】:2011-04-15 10:24:32
【问题描述】:
我想自学足够的机器学习知识,以便我能够首先了解足够的知识以使用可用的开源 ML 框架,这些框架将使我能够执行以下操作:
浏览页面的 HTML 源代码 从某个网站和“了解” 哪些部分构成内容, 哪些广告和哪些 形成元数据(既不是 内容,也不是广告 - 例如。 - TOC、作者简介等)
浏览页面的 HTML 源代码 来自不同的站点并“分类” 网站是否属于 预定义类别与否(列表 将提供类别 之前)1.
...类似的分类任务 文本和页面。
如您所见,我的直接要求是对不同数据源和大量数据进行分类。
就我有限的理解而言,与使用 SVM 相比,采用神经网络方法需要大量的训练和维护?
我知道 SVM 非常适合像我这样的(二进制)分类任务,而像 libSVM 这样的开源框架已经相当成熟了?
在那种情况下,什么主题和主题 计算机科学专业的毕业生需要吗 立即学习,使上述 要求可以解决,把 这些框架要使用吗?
我想远离 Java,这是可能的,否则我没有语言偏好。我愿意学习并尽我所能。
我的意图不是从头开始编写代码,而是首先让各种框架可供使用(虽然我不知道要决定哪个),并且我应该能够解决问题出错了。
您对学习统计和概率论特定部分的建议对我来说并不意外,所以如果需要,请说出来!
如果需要,我会根据您的所有建议和反馈修改此问题。
【问题讨论】:
-
你可能对Programmers.SE感兴趣。
标签: machine-learning classification