【发布时间】:2017-01-11 07:47:52
【问题描述】:
我想训练一个程序来根据它们包含的数值给字典提供各种标签 - 使用 scikit。 我的问题是,我似乎只了解如何对文本(句子)或数字变量(而不是包含多个数字的变量)进行分类。
这是我想要做的:
# available classes:
# hot, cold, wet, sticky
first_sample = {}
first_sample["temp"] = 30
first_sample["airpressure"] = 104
first_sample["airmoisture"] = 70
second_sample = {}
second_sample["temp"] = 2
second_sample["airpressure"] = 100
second_sample["airmoisture"] = 40
# do this manually X times
train(first_sample, ['sticky', 'hot'])
train(second_sample, ['wet', 'cold'])
train(...)
# then do it on a bunch of data by programme
classify(bunch_of_data)
【问题讨论】:
-
这将是(在 sci-kit 术语中)多标签分类或多任务分类的示例。这个page 有更多信息。如果 dict 必须有标签(必须是
hot或cold,必须是sticky或wet),那么它可能是更多的多任务分类。如果它可以有可变数量的标签分配给它,它可能是多标签分类。将 dicts 中的信息转换为数据框将是构建此类分类器的第一步。
标签: python scikit-learn classification