GENERator是阿里云飞天实验室 AI for Science 团队推出的生成式基因组基础模型,专注于 DNA 序列的设计和生成。模型基于 Transformer 解码器架构,具有 98k 碱基对的上下文长度和 12 亿参数,训练数据涵盖 3860 亿 bp 的真核生物 DNA。在多个基准测试中表现出色,能生成与天然蛋白质家族结构相似的 DNA 序列,在启动子设计等任务中展现出优化潜力。

GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型  第1张
(图片来源网络,侵删)
GENERator – 阿里 AI for Science 团队等推出的生成式 DNA 大模型  第2张
(图片来源网络,侵删)