图像和视频数据的联合训练是有效