TIP-I2V是大规模真实文V本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像到视频模型的发展,帮助研究人员分析用户偏好,评估模型性能,解决图像到视频模型引起的错误信息问题。

TIP-baidu09I2V – 超170万大规模真实文本和图像提示数据集  第1张
(图片来源网络,侵删)
TIP-baidu09I2V – 超170万大规模真实文本和图像提示数据集  第2张
(图片来源网络,侵删)