如何快速、精准地发现苗头化合物是创新药物研发的核心瓶颈问题之一。通过计算的方法预测与靶标间结合的苗头化合物,是突破生物实验筛选成本高、周期长、效率低的重要手段。传统应用打分函数评价靶标与化合物结合强度的虚拟筛选精度较低,引入机器学习算法有望极大提升打分函数的精度。然而目前大部分公开数据集都是针对传统打分函数开发,直接用于机器学习打分函数的训练和测试会带来隐藏偏差、数据量有限的问题,高质量数据集的构建对基于机器学习打分函数的苗头化合物虚拟筛选至关重要。
2022年6月,浙江大学智能创新药物研究院侯廷军研究员团队、中南大学曹东升团队和腾讯量子实验室提出了一种用于机器学习打分函数训练和测试的无偏数据集构建新方法TocoDecoy。该方法有效去除了数据集中的隐藏偏差,基于分子生成模型和分子对接技术使得数据集的可扩展性大大提升。对比传统的数据集DUD-E和适用于机器学习打分函数评价的无隐藏偏差数据集LIT-PCBA发现,TocoDecoy在四种隐藏偏差的验证中较另外两个数据集表现出相当/更少的隐藏偏差,表明TocoDecoy是一种更为合理的数据集构建方法,有望帮助相关领域的研究人员更好地对机器学习打分函数进行测评和训练。
相关研究以“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”发表在国际权威期刊《药物化学》(Journal of Medicinal Chemistry)。
浙江大学智能创新药物研究院和浙江大学药学院为本论文的第一署名单位,博士生张徐俊为第一作者,侯廷军研究员、腾讯量子实验室谢昌谕博士、中南大学曹东升教授为共同通讯作者。