Bark是Suno AI 推出的开源文本到音频模型,能生成逼真的多语言语音和多种音频类型,包括音乐、背景噪音等,同时支持非语言交流如笑声和哭泣。Bark提供预训练模型,适用于研究和商业用途。
留言在赶来的路上...
DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿样本的Grounding-100M数据集,DINO-X在COCO、...
DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的...
DGM(Darwin Gödel Machine)是自改进人工智能系统,通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理,基于基础模型生成新版本,然后在编码基准测试中验证新代理的性能。...
DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶段的数据选择。...
DDColor是阿里达摩院的研究人员推出的一个开源的AI图像着色框架,可以一键将黑白图片上色变为全彩图像。该方法通过使用双解码器架构(像素解码器和颜色解码器)来实现对灰度图像的自动着色,使得生成的彩色图像更加逼真和生动。...
DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging F...
DCEdit 是新型的双层控制图像编辑方法,是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略(PSL),用视觉和文本自注意力优化交叉注意力图,提供更精准的区域线索指导图像编辑。...
DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制,基于深度学习分析非增强CT影像,实现对胃癌的高效筛查。...
全部评论
留言在赶来的路上...
发表评论