【发布时间】:2020-09-20 13:45:13
【问题描述】:
我目前正在研究蛋白质的二元分类问题。目标是弄清楚突变是否会将蛋白质功能从活跃变为不活跃。 突变可以发生在构成蛋白质的氨基酸链中的 4 个不同但固定的位置。所以我的特征向量由长度为 4 的字符代码组成,其中每个字符代表发生突变的 4 个位置之一的氨基酸。总共有 21 种可能的氨基酸。
我的问题是如何将这 4 个字符的字符串转换为用于我的分类的数字。 到目前为止,我尝试将每个 cahr 转换为代表该 char 大写字母的 ASCII 十进制数(例如 A->65),但这给了我只有平庸的结果。
我发现了一些关于一种热编码的信息,但我不知道如何使用它,因为除了突变中出现的总共 21 个氨基酸中的 4 个的信息之外,它们出现的位置对我来说也很重要。
这是训练数据的样本:
【问题讨论】:
标签: machine-learning classification feature-extraction feature-selection feature-engineering