image-making是什么意思


image-making是什么意思  

整理多模态情感数据集的资源,以供大家参考和使用。后续会持续更新,欢迎各位补充。

作者:数据探索者

地址:[个人主页链接]

一、双模态(通常是文本、图像和语音的两两组合)数据集:

1.《Multi-Modal Sarcasm Detection in with Hierarchical Fusion Model》

这篇论文建立的数据集包含文本和图像两个模态。具体来说,数据集包含描述文本和图像的属性描述,可以灵活调整用于各种实验。数据集链接为:[链接地址]。

2.《Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering》

这篇论文中的VQA数据集包含原始图片、问答文本等属性。我们可以使用word2vec、Glove或bert提取文本特征,使用Resnet提取图像特征。数据集下载链接为:[下载链接]。

3.《Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)》

该论文提供图像和文本双模态的讽刺视频数据集。每个标签对应的图像包含多个,对应的文本是一组对话。数据集链接为:[链接地址]。

4.《Microsoft COCO Captions Data Collection and Evaluation Server》

这篇论文介绍经典的MS COCO数据集,包含大量涉及图片和字幕的标注数据。我们可以利用这些数据集进行多模态匹配等任务。数据集链接为:[链接地址]。

二、三模态(通常是文本、图像加语音)数据集:

1.《Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph》

  image-making是什么意思