如何处理 scikit-learn 中每个实体有多个数据的实体？

【问题标题】：How do I handle entities that have multiple data per entity in scikit-learn?如何处理 scikit-learn 中每个实体有多个数据的实体？
【发布时间】：2013-03-18 20:05:30
【问题描述】：

我有一个基于 SVM 的分类器，可以将一大块数据分类为某些类别。现在，我想将一些实体分类，每个实体都有多个数据块，可能使用多数投票或类似的方法将它们分类为相同的类别，然后生成诸如精度/召回/混淆矩阵等报告。

scikit-learn 是否提供了轻松做到这一点的方法？

【问题讨论】：

标签： scikit-learn

【解决方案1】：

所有 scikit-learn 模型都期望每个样本都有一个平面特征向量。因此，要处理更结构化的输入（或输出），您将不得不提出自己的包装器。根据您对任务的简洁描述，多数投票方案似乎是一种合理的方法。

【讨论】：

其实这不是真的。 SVM 可以采用 Gram 矩阵，这意味着（对于小问题）可以使用任意内核（树内核、图内核等）
确实我忘记了预计算内核。