【发布时间】:2013-12-08 23:30:51
【问题描述】:
我有这样的训练数据示例(我有 1000 部电影进行训练),我需要预测每部电影的“预算”:
film_1 = {
'title': 'The Hobbit: An Unexpected Journey',
'article_size': 25000,
'producer': ['Peter Jackson', 'Fran Walsh', 'Zane Weiner'],
'release_date': some_date(2013, 11, 28),
'running_time': 169,
'country': ['New Zealand', 'UK', 'USA'],
'budget': dec('200000000')
}
'title'、'producer'、'country'等key可以看作是机器学习中的特征,而'The Hobbit: An Unexpected Journey'、25000等值可以看作是用于学习的值过程。然而,在训练中,输入大多被接受为实数而不是字符串格式。我是否需要将诸如'title'、'producer'、'country'(字符串字段)之类的字段转换为int(应该进行分类或序列化之类的事情?)或其他一些操作以使我能够将这些数据用作我的网络的训练集?
【问题讨论】:
标签: python machine-learning classification pybrain