【发布时间】:2021-01-10 15:13:53
【问题描述】:
我正在尝试将化学结构转换为 ECFP 数据。 买,我的折叠步骤有问题。
我通过 D. Rogers 和 M. Hahn 的论文(J. Chem. Inf. Model., Vol. 50, No. 5, 2010)了解生成 ECFP 数据的所有过程
我在 python 中使用了一个小指模块来计算每个分子的 ECFP。 (https://github.com/ubccr/pinky/blob/master/pinky/fingerprints/ecfp.py)
这个函数的输出如下
{6456320269923861509: 1,
-3040533427843102467: 2,
-7329542376511023568: 1,
-5821485132112031149: 1,
-643847807504931861: 1,
3054809300354049582: 1,
-3679727481768249355: 1,
-2240115528993944325: 1,
5159885938473603439: 1,
1268207003089618622: 1,
267156486644197995: 1,
6401915128722912935: 1,
-8944122298402911035: 1,
-7116035920000285502: 1}
我知道它是什么以及它的含义。
但我不知道如何将这些数据转换为二进制数据形式。
在本网站(https://docs.chemaxon.com/display/docs/extended-connectivity-fingerprint-ecfp.md)中,上述标识符被转换为定长位串(折叠过程)
如何将上述原子标识符转换为定长位串?
谁能为 ECFP 方法推荐一个合适的散列函数?
【问题讨论】:
标签: python binary hash-function molecule cheminformatics