【发布时间】:2021-02-23 06:04:46
【问题描述】:
我有一个酶序列数据集和一个要预测的目标变量。
我正在做的过程是将序列转换为微笑,然后为机器学习模型获取数字输入。
问题是:rdkit 无法转换某些序列,但不是全部。在这种情况下变换被停止了索引= 5,其对应于以下序列:“PQITLWQRPIVTIKIGGQLIEALLDTGADDTVLEXXNLPGRWKPKXIGGIGGFXKVRQYDQVPIEIXGHKTXSTVLVGPTPVNIIGRNLMTQIGCTLNFPISPIETVPVKLKPGMDGPKXKQWPLTEEKIKALMEICKELEEEGKISKIGPENPYNTPVFAIKKKNSTKWRKLVDFRELNKRTQDFWEVQLGIPHPAGLKRKKSVTVLDVGDAYFSIPLDKDFRKYTAFTIPSINNETPGIRYQYNVLPQGWKGSPAIFQSSMTKILEPFRKQNPDIVIYQYVDDLYVGSDLEIEQHRTKIKELRQYLWKWGFYTPDXKHQEEPPFHWXGYELHPDKWTVQPIVLPEKESWTVNDIQKLVGKLNWASQIYAGIKVKQLCKLLRG”
【问题讨论】:
-
我们这里也有很多 SMILES 问题:mattermodeling.stackexchange.com/search?q=smiles
标签: python bioinformatics fingerprint rdkit cheminformatics