药物研发正从传统 “一药一靶”模式向复杂的“一药多靶”框架转变,亟需全面解析基因组层面的药物扰动效应以阐明作用机制、优化治疗方案。然而,当前研究面临三大关键挑战:一是高质量扰动数据稀缺,尤其是临床场景下的数据匮乏;二是现有模型易出现过度去噪问题,掩盖关键生物信息;三是难以精准建模药物效应的剂量依赖性和时间动态性,无法充分揭示药物代谢动力学特征。这些瓶颈严重制约了药物研发效率和临床转化成功率。
针对上述挑战,浙江大学药学院、浙江大学智能创新药物研究院杨波教授、曹戟教授团队联合谢昌谕教授团队开发了一种基于生物信息引导的双分支Transformer模型XPert。该模型构建了独特的双分支架构,通过分别编码扰动前和扰动后的细胞状态,成功解耦内在转录模式与扰动诱导的调控变化,创新性地解决了药物研发中细胞扰动反应建模的核心难题,实现了基因特异性扰动效应与剂量-时间动态的精准预测,为多靶点药物发现和个性化治疗提供了突破性工具。相关研究成果于2026年1月26日以 “Modelling drug-induced cellular perturbation responses with a biologically informed dual-branch transformer” 为题,发表于国际权威期刊 Nature Machine Intelligence。

该工作首次将双分支Transformer架构与生物知识引导的异构图相结合,应用于药物诱导细胞转录组扰动反应的精准建模任务。通过分别编码扰动前和扰动后的细胞状态,XPert成功解耦内在转录模式与扰动诱导的调控变化,有效克服了传统变分自编码器(VAE)类方法普遍存在的过度去噪问题,为保留关键生物信息提供了创新性解决方案。该模型内置多维度特征整合机制,通过UniMol提取药物3D化学特征,借助异构图融合药物-靶点相互作用、蛋白质互作及药物结构相似性等生物先验知识,同时引入条件token编码非线性剂量-时间反应关系,实现了细胞上下文、药物属性与动态扰动效应的协同建模。此外,XPert依托注意力机制实现了分子层面的强可解释性,能够精准识别药物关键作用结构与耐药生物标志物,其预训练-微调框架还解决了临床数据稀缺难题,为提升下游药物研发与临床转化的可靠性提供了核心技术支撑。

图 1. XPert的总体框架
XPert在单剂量-单时间场景基准测试中取得SOTA表现
XPert 在单剂量-单时间(sdst)场景的性能评估中展现出碾压性优势,全面超越现有主流模型。研究团队基于L1000数据集构建测试子集,采用暖启动、冷药物、冷细胞三种严格的拆分策略,与两种VAE类模型(TranSiGen、PRnet)、两种注意力类模型(DeepCE、CIGER)及多种基线模型展开五折交叉验证。结果显示,XPert在基因表达差异(xdeg)预测这一核心难点任务上表现尤为突出,Pearson相关系数(PCC)较次优模型分别提升8.2%(暖启动)、15.9%(冷药物)和36.7%(冷细胞),均方误差(MSE)降低78.2%。与易出现过度去噪的 VAE类模型不同,XPert凭借双分支架构精准保留关键生物信息,在冷细胞场景中稳定捕捉 AARS、GRN等核心基因的表达变化趋势,成为唯一能精准复现基因表达幅度与范围的模型。

图2. 不同模型在单剂量-单时间场景基准测试中的性能比较
XPert在多剂量-多时间场景中精准解码药物动态反应
在更贴近真实药物研发的多剂量-多时间(mdmt)场景中,XPert 也展现出了强大的动态预测能力。mdmt场景覆盖40种细胞系、1977种药物的多维度数据,XPert通过创新的条件token编码策略,成功捕捉非线性剂量-时间反应关系,其PCC在暖启动、冷药物、冷细胞场景中较次优模型分别提升8.34%、5.85%和30.54%,且是少数在冷细胞场景中避免R² 值为负的模型。以泛HDAC抑制剂vorinostat为案例分析,XPert 精准识别出剂量梯度对基因表达的调控作用,不仅捕捉到NRIP1、ELOVL6等基因随剂量升高从上调转为下调的逆转效应,还清晰呈现不同细胞系的特异性反应模式,为解析药物作用机制、优化给药方案提供了精准支撑。

图3. 不同模型在多剂量-多时间场景基准测试中的性能比较及vorinostat案例分析
XPert融合生物先验知识,实现高可解释性与强泛化性双突破
XPert凭借生物知识整合设计,在保持预测精度的同时,实现了模型的高度可解释性与泛化能力提升。针对高通量测序数据的批次效应难题,XPert摒弃了传统VAE类模型依赖去噪的思路,采用有监督学习的方式明确区分真实生物信号与测序噪声,使相同细胞系的聚类更紧密,生物信息保留能力经scIB基准验证表现优异。借助融合药物-靶点相互作用(DTI)、蛋白质互作(PPI)及药物结构相似性的异构图(HG),XPert成功搭建化学空间与生物效应的桥梁,让作用机制(MoA)相同的药物在生物空间自然聚类,解决了单纯依赖化学特征的局限性。更重要的是,模型的注意力机制可精准识别药物关键作用结构,如EGFR抑制剂的喹唑啉环核心、HDAC抑制剂的锌结合基团,与已知的结构-活性关系(SAR)高度契合,为药物作用机制解析提供了直观的分子层面证据。

图4. XPert的生物知识整合与可解释性分析
XPert搭建临床前-临床转化桥梁,精准提升患者反应预测
针对临床扰动数据稀缺的行业痛点,XPert通过创新的预训练-微调框架,成功实现从大规模临床前数据到临床场景的知识迁移,为打通从实验室到病床的转化通道提供了核心技术支撑。研究团队以L1000临床前数据集为预训练数据,在CDS_DB临床数据集上进行微调,即便临床前与临床数据存在显著领域差异,仍实现了患者特异性响应预测的大幅提升,泛癌种场景性能提升2.51%,乳腺癌中高达15.04%,白血病中提升12.58%,充分验证了模型跨场景适配能力。
在来曲唑治疗乳腺癌的临床案例分析中,XPert 精准捕捉到响应者与非响应者的转录组差异:响应者表现出更显著的长尾分布特征,高变异基因(HVG)数量是未响应者的近 3倍。更关键的是,模型通过基因级注意力分析,不仅验证了FGFR2这一已知耐药标志物,还首次识别出TIAM1、RPCP、HK1、CDKN1B等表达水平分析不可见的潜在耐药基因,为解析药物耐药机制提供了全新视角。该能力使XPert成为唯一在未见药物、未见癌种场景中均能从预训练中获益的模型,为临床患者分层治疗、耐药风险预判及个性化方案优化奠定了坚实基础。

图5. XPert 通过迁移学习实现临床前到临床的预测跨越及耐药标志物识别
该工作为解决药物诱导细胞扰动反应建模中的数据稀缺、过度去噪及剂量-时间动态解析不足等长期挑战提供了创新解决方案,有望推动多靶点药物发现、药物作用机制解析及临床转化研究的进一步发展,成为精准药物研发和个性化治疗的核心工具。浙江大学药学院博士研究生郭越为论文第一作者,杨波教授、谢昌谕教授和曹戟教授为共同通讯作者。该研究得到国家自然科学基金、浙江省“尖兵”“领雁”研发计划等项目支持。
浙江大学智能创新药物研究院始终聚焦AI制药关键技术突破,XPert模型的成功研发进一步完善了智能药物研发技术体系,为原创新药研发提供了核心工具支撑。未来,团队将继续拓展模型应用场景,推动其在多组学整合、药物扰动等领域的创新发展,为精准医疗和新药研发贡献力量。
论文标题:
Modelling drug-induced cellular perturbation responses with a biologically informed dual-branch transformer
论文网址:
https://www.nature.com/articles/s42256-025-01165-w
DOI:
https://doi.org/10.1038/s42256-025-01165-w