本节使用的是 coco_2014_caption 数据集,该数据集主要用于多模态(Image-to-Text)任务。 本次任务,主要使用其中的前500张图像,并进行处理和格式微调,目标是组成如下格式的json文件: SwanLab是一个开源的模型训练记录工具,由本校(西电)团队开发,面向AI研究 ...