两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标

两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第1张


谷歌现象级产品NotebookLM,两个本科生自学3个月就复刻了?


Nari Labs刚刚开源的Dia-1.6B,能够生成关于任何主题的对话,语音音色自然,还会添加语气、咳嗽声、笑声等。


官方演示提供了与热门语音模型ElevenLabs和SeaSame的对比,先来感受一下:


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第2张


Dia-1.6B模型权重与推理代码全开源,在GitHub上不到一天就获得近5000标星。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第3张


目前Dia 1.6B在单张英伟达RTX A4000上每秒约可生成40个token,而86个token大约是1秒的音频内容。


也就是说,在更强的GPU或者多卡配置下可以做到实时生成音频。


官方表示完整版模型需要10GB显存运行,未来会添加量化版本,以及CPU支持。


不过开源社区已经通过优化torch编译进一步提高推理速度和节省显存。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第4张


如果没有算力资源,也可以到HuggingFace试玩Demo,不过很可惜,目前版本不支持中文。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第5张


真实语气语音生成


使用Dia-1.6B非常简单,用[s1] [s2]标签带标两个不同的音色,目前模型为针对任何音色微调,每次都会随机得到不同的音色。


如果想保持特定音色,可以添加音色提示词(教程稍后发布)或固定随机种子。


语气会自动适应文字内容,如官方演示中一段与着火了有关的对话,AI语气就明显紧张起来。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第6张


相比之下,Eleven Labs和Seasame模型生成的语气还是不紧不慢的。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第7张


只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等要素,特别是笑声会与。其他模型暂不支持这个功能。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第8张


不过目前版本的在线Demo也有一些问题,由于最大生成时长相对固定,输入的文字越多语速就会越快。


如果在参数中调整速度因子,会像调整音频播放速度一样让声音更低沉,没那么自然了。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第9张


两位本科生自学3个月打造


Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),


其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第10张


Toby Kim透露项目灵感正是来自谷歌去年爆火的NoteBook LM自动生成播客对话功能,但他们想要对声音的控制力更强,脚本的自由度更高。


他们尝试了当时市面上所有的文本转语音API后,认为没有一个听起来像真实的人类对话。


于是他们靠申请免费的谷歌研究计划TPU资源训练模型,


并推荐学习入门TPU的团队去看DeepMind的《How to Scale Your Model》 和HuggingFace的《Ultra-Scale Playbook》


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第11张


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第12张


未来,他们计划把Dia打造成一款完整应用,可以创建有趣的对话、重新组合内容并与好友分享。


在线试玩:


https://huggingface.co/spaces/nari-labs/Dia-1.6B


How to Scale Your Model


https://jax-ml.github.io/scaling-book/


Ultra-Scale Playbook


https://huggingface.co/spaces/nanotron/ultrascale-playbook


参考链接:


[1]https://x.com/_doyeob_/status/1914464979266449863


[2]https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/


文章来自于微信公众号 “硅星人Pro”,作者 :梦晨


两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标  第13张