网站建设明细报价,vs2013网站开发教程,外贸网站制作哪家好,云南楚雄天气SMILES-based deep generative scaffold decorator for de-novo drug design
基于SMILES的利用Fragment的分子生成模型
https://github.com/undeadpixel/reinvent-scaffold-decorator 1.背景
深度生成模型因其可以从有限的数量中生成新数据#xff0c;目前已成功应用于生成…SMILES-based deep generative scaffold decorator for de-novo drug design
基于SMILES的利用Fragment的分子生成模型
https://github.com/undeadpixel/reinvent-scaffold-decorator 1.背景
深度生成模型因其可以从有限的数量中生成新数据目前已成功应用于生成文本、图像、视频等领域。令人关注的是其在药物发现领域的重要作用使得许多新方法可用于探索化学空间例如RNNVAEGAN等。在这些模型中常用两种方式来表示分子数据一类是利用SMILES字符串一类是利用分子图。基于SMILES字符串的模型因为SMILES字符串的简单结构可以使得模型更快的进行训练并且2019年Josep Arús‑Pous等人提出的在分子生成模型中引入Randomized SMILES可以大大改善生成结果使得模型的收敛效果更好过拟合较少。但是由于SMILES本身语法的限制其结构不允许从骨架scaffold即具有明确连接点的部分构建的分子譬如去除一个化合物的所有取代基中生成分子当然在之前的研究中有学者利用双向RNN从两侧完善一个SMILES可是这样使得连接点的个数局限于两个另外虽然图神经网络可在无限定连接点的情况下装饰骨架但是由于本身的实验性结构从而要求在实验中进行大量的训练和采样。
作者提出了一种可以基于SMILES生成模型通过骨架生成分子的架构该架构可以分两步生成分子并且可以生成训练集以帮助模型针对各种骨架进行泛化。此外骨架和装饰器可以进一步过滤只允许具有特定属性的骨架和装饰器。作者表明通过过滤使装饰器模型能够学习有关如何装饰骨架的特定信息。 2.框架概括
整个分子生成过程可分为两个步骤骨架生成器scaffold generator和装饰器decorator。生成器是基于Randomized SMILES的RNN装饰器为编码器-解码器体系结构其编码器是一个双向RNN解码器是一个单向RNN。SMILES语法使用标记“[*]”进行了扩展该标记由部分化学软件库支持作为部分构建的分子中的连接点。
首先由骨架生成器生成SMILES对应的fragment或者手动输入fragment生成Randomized SMILES
之后将骨架输入到装饰器模型中这里训练了两个装饰器①、一个装饰器一次仅装饰一个连接点②、另一个装饰器一次装饰所有连接点。在第一种情况下模型会装饰骨架的SMILES字符串中的第一个连接点然后将生成的装饰重新连接到骨架上并将半构建的分子反馈到装饰器中。重复该过程直到装饰了所有连接点。半装饰分子的随机SMILES表示在每个步骤都会改变因此会移动SMILES字符串中连接点的相对位置。这个过程允许在装饰带有n个连接点的分子时考虑所有可能的排序。第二种情况装饰所有连接点时和第一种相似但仅通过一步使用“|”字符作为分隔按SMILES字符串中出现的顺序生成所有装饰。 3.训练集生成
装饰器模型需要训练集其中每个item都包括骨架及其装饰这里不是选择已经创建的化合物例如专利数据而是通过详尽地对分子数据库中的所有分子彻底删除c个非环键进行切片来创建数据集将产生的碎片分为骨架和装饰。从分子切片中如果不存在连接点数c的片段则将组合丢弃。这些item中的每一个骨架装饰元组”都由骨架和与其具有同样连接点的装饰组成。下图为DRD2拮抗剂桂利嗪切片的三种可能组合。 4.实验
1在DRD2上生成预测活性分子
骨架装饰器的主要目的是尽可能有意义地装饰任何输入骨架。在第一个实验中一个小型数据集由4211个多巴胺受体D2DRD2活性调节剂组成用于训练装饰器模型多步和单步。然后这些模型在不同的骨架上进行了测试这些骨架与训练集数据相似。从每个骨架中获得一系列分子然后使用活性预测模型APM将其与随机装饰的分子进行比较。
首先通过除去具有五个随机选择的骨架的所有元组以及从具有这些骨架的152个分子中的任何一个获得的所有元组来提取由5532个骨架装饰元组组成的验证集。 使用多步装饰器模型对五个选定的骨架进行多次装饰从上表可以看出总共产生14,300个独特的分子其中包括验证集中存在的63个分子占41.4预测的活性分子的百分比始终低于从装饰的分子中获得的百分比。 从使用训练集中的骨架训练的分子生成模型中采样然后使用多步骨架装饰模型进行多次装饰。结果表明预测为有活性的生成分子的比例通常很高从45.4增至98.9表2。但是最重要的是装饰分子始终比ChEMBL和训练集诱导剂具有更高的预测活性分子比。 另外通过单步结构模型装饰骨架结果表明单步结构模型能够从验证集中生成152个分子中的90个59.2。尽管比多步模型更好但其实多步模型和单步模型之间的比较必须相对进行因为多步体系结构采样过程的性质不允许控制要采样的分子数量。 作者在此实验中对生成分子相似性也做了研究从训练集中的分子样本两个骨架集和两个诱导剂集产生的分子样本中分别计算出四个数值分子质cLogP SA得分和QED得出用装饰模型生成的分子比诱导剂更倾向于遵循训练集分布。 2用合成化学感知模型装饰骨架
在第二个实验中通过使用仅由符合合成化学RECAP规则的键连接的装饰和类药骨架进行训练的装饰器模型ChEMBL数据库得到使用和过滤。。与之前的实验一样两组骨架一组仅存在于验证集中的42个骨架以及一组由生成模型生成的不在ChEMBL数据集的40个骨架。使用多步装饰器模型对两组骨架进行多次装饰每个骨架平均总共可产生12294和11504个不同的分子。验证集件骨架上装饰的分子占35.4结果略低于DRD2实验中的结果。 上图验证了生成的分子的质量。结果表明装饰模型能够创建分子这些分子除了在连接点上满足RECAP规则外还具有类药物性并且可以在任何骨架下合成。 另外还使用与多步装饰器相同的超参数和训练集对单步装饰器模型进行了训练装饰了相同的骨架组当计算上一节中所述的值时下表可以看出整体性能稍差。 5.总结
作者提出了一种新的基于SMILES的分子生成模型该模型可以从骨架生成分子。除此之外还定义了一种算法通过穷尽地切片分子的无环键并获得所有可能的组合将任意分子集处理为由骨架装饰元组组成的集合。此外它是一种数据增强技术可以很容易地与随机SMILES结合使用小型分子集获得更好的结果该模型可以直接与各种已提出的技术结合例如强化学习和迁移学习以进一步指导分子的产生。感觉他这种切分方式很重要 J. Cheminform. | 基于SMILES的利用骨架的分子生成模型 - 知乎