【发布时间】:2011-07-21 14:19:43
【问题描述】:
问题
我想对数千个网站进行分类/分类/聚类/分组。有我们可以训练的数据,所以我们可以进行监督学习,但这不是我们收集的数据,我们也不坚持使用它——所以我们也在考虑无监督学习。
我可以在机器学习算法中使用哪些功能来处理多语言数据?请注意,其中一些语言可能尚未在自然语言处理字段中处理。
如果我要使用无监督学习算法,我是否应该只按语言划分数据并以不同方式处理每种语言?不同的语言可能有不同的相关类别(或没有,取决于你的心理语言学理论倾向),这可能会影响划分的决定。
我正在考虑使用决策树,或者支持向量机 (SVM) 来支持更多功能(根据我对它们的理解)。 This post 建议使用随机森林而不是 SVM。有什么想法吗?
欢迎务实的方法! (理论上也是,但这些可能会留到以后用。)
一些背景
我们正在尝试用 3 到 5 种语言(可能多达 10 种,但我们不确定)对包含数千个网站的语料库进行分类。
我们拥有数百个已分类网站形式的训练数据。但是,我们可以选择使用或不使用该数据集——如果其他类别更有意义,我们可以不使用我们拥有的训练数据,因为这不是我们一开始就收集的。我们正处于从网站上抓取数据/文本的最后阶段。
现在我们必须就上述问题做出决定。我已经使用 Brown Corpus 和 Brill 标注器完成了一些工作,但由于多语言问题,这将无法正常工作。
我们打算使用Orange 机器学习包。
【问题讨论】:
-
那么,这是有监督的还是无监督的?
-
我明白你的意思是 语义 分类/聚类,即按意义分组,而不是链接编号、情绪、提及公司名称等其他信息?
-
@rmalouf:问题已经澄清了! @ffriend:我不确定我是否一定会将其描述为 semantic ,因为这可能会让我们进入切线的理论和技术领域……但可以肯定! (再次,在这个词的非常松散的意义上。)我们绝对不会试图查看原始链接计数或特定名称计数之类的东西。
标签: artificial-intelligence nlp machine-learning data-mining classification