【问题标题】:PySpark, read multiline file (.sdf)PySpark,读取多行文件 (.sdf)
【发布时间】:2021-10-28 06:46:39
【问题描述】:

读取 sdf 文件集合最有效的方法是什么? sdf 是一个化学表文件,既包含有关分子的 3D 信息,也包含该分子的属性。所有这些信息都存储在一个多行(gzipped)ASCII 文件中。 我正在努力定义一个自定义文件阅读器功能,该功能能够解释每个分子条目的自定义小节。在这一点上,我怀疑这是否是正确的方法。

<Molecular-ID>
  -OEChem-10272110393D
 Schrodinger Suite 2021-1.
 32 34  0     0  0  0  0  0  0999 V2000
   31.1383   33.3647   21.1400 C   0  0  0  0  0  0  0  0  0  0  0  0
   30.7977   33.9390   19.9173 C   0  0  0  0  0  0  0  0  0  0  0  0
....
M  END
> <ShapeTanimoto>
0.6969

> <ColorTanimoto>
0.7854

> <TanimotoCombo>
1.7854

$$$$

【问题讨论】:

    标签: python pyspark chemistry


    【解决方案1】:

    在我看来,最“有效”的方式是使用别人的代码,即现有的库。

    CDK 可以读取 SDF 文件及其集合。 https://cdk.github.io/

    Rosetta Wiki 提供了从 Python 调用 CDK 的示例。 https://ctr.fandom.com/wiki/Chemistry_Toolkit_Rosetta_Wiki

    【讨论】:

      猜你喜欢
      • 2019-02-10
      • 1970-01-01
      • 2020-08-10
      • 1970-01-01
      • 1970-01-01
      • 2013-02-02
      • 2021-11-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多