PySpark，读取多行文件 (.sdf)答案

【问题标题】：PySpark, read multiline file (.sdf)PySpark，读取多行文件 (.sdf)
【发布时间】：2021-10-28 06:46:39
【问题描述】：

读取 sdf 文件集合最有效的方法是什么？ sdf 是一个化学表文件，既包含有关分子的 3D 信息，也包含该分子的属性。所有这些信息都存储在一个多行（gzipped）ASCII 文件中。我正在努力定义一个自定义文件阅读器功能，该功能能够解释每个分子条目的自定义小节。在这一点上，我怀疑这是否是正确的方法。

<Molecular-ID>
  -OEChem-10272110393D
 Schrodinger Suite 2021-1.
 32 34  0     0  0  0  0  0  0999 V2000
   31.1383   33.3647   21.1400 C   0  0  0  0  0  0  0  0  0  0  0  0
   30.7977   33.9390   19.9173 C   0  0  0  0  0  0  0  0  0  0  0  0
....
M  END
> <ShapeTanimoto>
0.6969

> <ColorTanimoto>
0.7854

> <TanimotoCombo>
1.7854

$$$$

【问题讨论】：

标签： python pyspark chemistry

【解决方案1】：

在我看来，最“有效”的方式是使用别人的代码，即现有的库。

CDK 可以读取 SDF 文件及其集合。 https://cdk.github.io/

Rosetta Wiki 提供了从 Python 调用 CDK 的示例。 https://ctr.fandom.com/wiki/Chemistry_Toolkit_Rosetta_Wiki

【讨论】：