2025年3月19日,华南理工大学生物科学与工程学院熊伟教授团队与未来技术学院蒋怀光教授团队联合在mSystems期刊上发表题为Combining Diffusion and Transformer Models for Enhanced Promoter Synthesis and Strength Prediction in Deep Learning的研究论文,提出了一种基于扩散模型与Transformer模型的启动子合成和强度预测一体化方法。该方法利用深度学习技术从海量生物遗传数据中解析调控元件的多维特征,优化合成启动子设计,并在启动子强度预测方面也表现出优异性能。研究结果表明,该方法得到的合成启动子与天然启动子具有高度相似的结构,并且预测模型可有效筛选高性能启动子序列。该技术体系为合成生物学调控元件设计、代谢工程通路优化及基因表达精准调控提供了新见解,在生物医药制造、工程菌株开发等领域展现出重要应用潜力。
设计高性能启动子的挑战
启动子是调控基因转录的核心功能元件,在生物医药研发、代谢工程改造及工业生物制造等领域具有关键作用。然而,高性能启动子的设计面临多重技术瓶颈:
首先,启动子序列空间呈指数级扩展(4n),导致筛选序列的计算复杂度剧增;
其次,依赖天然启动子随机突变的传统筛选策略,其搜索范围受限且缺乏方向性指导,难以系统挖掘潜在的高性能启动子序列;
最后,启动子强度的实验表征体系存在周期冗长、成本高昂等技术限制,而现有基于卷积神经网络(CNN)的预测模型难以精准筛选高性能启动子。
深度学习技术克服传统局限
为了克服上述局限性,华南理工大学生物科学与工程学院联合未来技术学院团队创新性提出一种集合成、评估于一体的协同设计策略,成功构建了启动子智能设计平台。研究团队基于大肠杆菌和蓝细菌的启动子数据集,首先通过扩散模型生成候选启动子序列文库,继而建立Transformer驱动的强度预测模型筛选高性能启动子,最终集成开发一个涵盖序列生成与强度预测的智能设计平台。
1. 扩散模型合成候选启动子:研究团队使用One-hot编码方法处理启动子数据,利用扩散模型学习启动子数据的统计学特征,并结合交叉验证方法提升合成启动子和自然启动子的相似性。基于深度学习的生成技术能捕捉启动子的序列特征和调控信息,在序列空间中探索待选序列的同时也保证了必要的保守性,为后续筛选高性能启动子提供了大量的待选序列;
2. Transformer模型筛选高性能启动子:研究团队将启动子强度作为训练标签,通过有监督训练让Transformer模型学习启动子序列和启动子强度之间的隐式映射,快速准确获取启动子强度信息。相较于传统的实验方法,基于深度学习的预测技术速度快、成本低,更适合处理大量候选序列。与CNN有限的感受野相比,Transformer模型更擅长处理长序列信息,提取序列之间的依赖关系,实现更高精度的强度预测;
3. 启动子一体化智能设计平台:研究团队开发设计了启动子序列合成和强度预测的一体化平台。该平台可按用户需求快速生成启动子序列并预测其强度,同时支持合成数据的可视化展示与数据下载,以便用户对生成的启动子数据进行后续分析、筛选及实验验证。
计算性能测试
本研究在Escherichia coli K12 MG1655、Synechocystis sp. PCC6803的自然启动子数据集中,与变分自编码器(VAE)、对抗神经网络(GAN)和CNN等模型进行对比分析。分析结果表明,本文方法的性能优于现有模型:
合成效果更好:相较于VAE和GAN等生成模型,扩散模型采用逐步降噪的方式生成数据,训练过程更稳定,避免了模式崩溃问题,能够更好地建模启动子的复杂分布。
预测性能更佳:相较于被感受野限制特征提取范围的CNN,Transformer模型基于自注意力机制,能够全局关注序列中的关键片段,并学习远程依赖关系,精准预测启动子强度。
工具优势与未来应用前景
本研究构建的启动子设计平台具有操作简捷、界面友好的特点,用户无需专业计算背景即可使用。平台整合了启动子序列智能生成与强度预测核心模块,同时具备多用户并发访问、合成数据可视化分析及标准化数据下载接口等辅助功能。研究团队计划后续通过扩展适用菌种类型、优化预测模型架构,并整合湿实验验证体系,系统评估合成启动子的生物学功能。该平台的潜在应用方向包括:
基因工程:设计高效合成启动子,提高外源基因在工业微生物或生物制药中的表达水平。
代谢工程:高性能启动子能定向提高细胞对特定代谢产物(如生物燃料、药物前体等)的合成能力。
农业与植物基因改造:结合基因编辑技术,优化作物生长调控机制,提高耐受性和作物产量。
近年来,华南理工大学积极践行前沿科技理念,推动“AI+”与多学科领域的深度融合。本研究展示了人工智能在合成生物学领域的应用潜力。研究结合扩散模型与Transformer模型,创新性地提出了一种基于人工智能的启动子合成与筛选方法,为基因调控及其下游应用研究提供了有力工具。研究的原始数据和代码已开源,将进一步推动精准基因调控技术的拓展与实际应用。
原文链接:https://doi.org/10.1128/msystems.00183-25