image-making是什么意思

整理多模态情感数据集的资源,以供大家参考和使用。后续会持续更新,欢迎各位补充。
作者:数据探索者
地址:[个人主页链接]
一、双模态(通常是文本、图像和语音的两两组合)数据集:
1.《Multi-Modal Sarcasm Detection in with Hierarchical Fusion Model》
这篇论文建立的数据集包含文本和图像两个模态。具体来说,数据集包含描述文本和图像的属性描述,可以灵活调整用于各种实验。数据集链接为:[链接地址]。
2.《Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering》
这篇论文中的VQA数据集包含原始图片、问答文本等属性。我们可以使用word2vec、Glove或bert提取文本特征,使用Resnet提取图像特征。数据集下载链接为:[下载链接]。
3.《Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)》
该论文提供图像和文本双模态的讽刺视频数据集。每个标签对应的图像包含多个,对应的文本是一组对话。数据集链接为:[链接地址]。
4.《Microsoft COCO Captions Data Collection and Evaluation Server》
这篇论文介绍经典的MS COCO数据集,包含大量涉及图片和字幕的标注数据。我们可以利用这些数据集进行多模态匹配等任务。数据集链接为:[链接地址]。
二、三模态(通常是文本、图像加语音)数据集:
1.《Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》
