【问题标题】:Machine learning algorithm with fitness score具有适应度得分的机器学习算法
【发布时间】:2016-04-16 03:33:36
【问题描述】:

我不确定这是针对StackOverflow 还是Programmers,但由于它更倾向于实施,所以我在这里问。

我正在寻找一种可以采用n 输入(所有浮点数)并产生m(所有浮点数;m < n)输出的算法。然后可以使用一种适应度分数来训练这个系统,以学习输入和输出之间的相关性。

用于此目的的最佳算法是什么?


一点上下文: 我想使用机器学习而不是自行发明的算法,因为我不知道数据之间的(完全)相关性,我知道机器学习算法的结果是否好,并从那里进行训练。

我有几个变量要传入:

  • 只有我知道的信息(信心0-1
  • 所有人都知道的关于我的信息(资源和以前的成就0-1
  • 我正在调查的人的风险状况(分别基于其他玩家0-1
  • 我正在调查的人的行为概况(分别基于其他玩家0-1
  • 我正在查看的玩家拥有的资源(分别 0-1
  • 玩家总数(基于允许的最大玩家数0-1
  • 结果预测(偏差0-1

输出应该是:

  • 要采取的行动(从“什么都不做”到“迅速行动”0-1
  • 采取的行动数量(从“不多”到“你能做的最多”0-1

我有非常大的数据集可以处理,所以理想情况下建议的算法也可以持久化。


我见过像 Artificial Neural Networks 这样的算法,但这些算法不允许使用适应度得分,因为它们需要将输入和输出耦合在一起。我无法提供,我只能计算这些数字正确的可能性(健身分数——设计上永远不会>= 1

【问题讨论】:

  • 听起来你在描述一种遗传算法:en.wikipedia.org/wiki/Genetic_algorithm
  • 这样的方法有几十种,你的设置是通用的,给出任何合理的答案。遗传算法、强化学习,这只是我想到的两个,但这是一个定义不明确的问题,可以有无限多的答案。
  • 请注意,遗传算法通常应作为最后的手段。对于许多问题,存在更专业(更好)的算法。

标签: algorithm machine-learning fitness


【解决方案1】:

从描述来看,它看起来像是reinforcement learning 的经典问题,您确实有一些代理执行动作(这里定义为动作+强度,但这仍然是一个动作),它改变了代理的一些内部状态并获得 (至少在某个时候)奖励。

有很多方法可以从您的环境中学习一个好的策略(选择特定操作的规则),包括(但不限于):

  • Q 学习
  • MDP(马尔可夫决策过程)
  • 蒙特卡罗方法

【讨论】:

    猜你喜欢
    • 2016-10-09
    • 2012-03-14
    • 2011-01-30
    • 2011-08-01
    • 2018-09-05
    • 1970-01-01
    • 2012-01-28
    • 2012-03-04
    • 2018-05-03
    相关资源
    最近更新 更多