Docmatix 是一个用于文档视觉问答(Document Visual Question Answering,简称 DocVQA)任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对,数据源自130万个PDF文档。Docmatix 数据集的规模是之前数据集的240倍,为训练和优化视觉语言模型(VLM)提供了丰富的资源。


Docmatix 是一个用于文档视觉问答(Document Visual Question Answering,简称 DocVQA)任务设计的大规模数据集。它包含了240万张图像和950万个问题答案对,数据源自130万个PDF文档。Docmatix 数据集的规模是之前数据集的240倍,为训练和优化视觉语言模型(VLM)提供了丰富的资源。
全部评论
留言在赶来的路上...
发表评论