沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

百万量级的多模态对话数据集来了,153万张图片4000多主题

5月21日 满月族投稿
  羿阁发自凹非寺
  量子位公众号QbitAI
  百万量级的多模态对话数据集来了!
  MMDialog,这个由北大微软最新发布的英文数据集,包含了108万个来源于真实世界的高质量对话。
  其中包括非重复图片153万张,涉及4184个主题,还支持多种表情符号。
  就像人在网上聊天时除了文字,还会发表情包、图片一样,多模态数据集正是旨在促进AI像人类一样交谈。
  举个例子,下图是MMDialog收录的一段人类对话,可以看到,双方正在用文字、图片和表情符号谈论风景和野生动物。
  目前,该数据集已对学术研究领域开源,可访问文末链接获取使用权限~MMDialog优势在哪?
  虽然目前开源的英文大规模图文数据集较为丰富,如VisualDialog、ImageChat、OpenViDial、PhotoChat等,但它们或多或少都存在一定的局限性。
  比如VisualDialog仅为针对特定图片内容的提问与解答,场景与任务的定义比较单一;
  ImageChat是从给定图像的对话中派生出来的,这种会话中讨论的主题通常只由给定图像触发和支撑,回复的内容也只有文本信息,这与人类日常对话的发散性并不完全一致;
  PhotoChat则是由众包标注,尽管已比较接近于现实生活中的多模态对话,但仍然受到数据规模较小的限制。
  以下图为例,与PhotoChat相比,MMDialog拥有88倍的对话数量,47倍的主题丰富度,以及140倍的图片数量。
  而且,每段对话平均包含2。59张图像,且可以位于对话过程的任何位置,更符合人类的交流习惯。
  其次,MMDialog的另一大优势在于其包含了大量的话题,以推广开放域。
  为了保证数据质量,研究人员选择在某英文在线社交平台提取带有某种标签的对话(例如travel、friends、golf),因为标签往往概括了文本话语和视觉媒体的主要主题。
  具体来说,他们人工筛选出4184个流行的标签,且保证每个标签至少收集1000个对话,这样MMDialog数据集不仅满足开放域属性,还可以确保较大的规模。两种基线模型
  为了用MMDialog数据集建立更真实的对话系统,本文还提出并规范了两个基于检索和生成场景的响应式生成任务。
  此外,研究人员还为上述任务建立了两个基线:生成式基线模型、检索式基线模型,并报告了其实验性能。
  生成式基线模型
  如下图所示,研究人员复现并改进了多模态回复生成的SOTA模型Divter,它包括两个主要部分:一个纯文本对话回复生成器G,以及一个文本描述图像翻译器F。
  具体来说,在输入端,G将对话历史U做为输入,然后生成一个文本序列,该序列可能包括:文本回复、图片的文本描述,或同时包括两者。
  然后,图片翻译器F会将图片的文本描述翻译为图片回复,并将所有的文本回复与图片回复依次组合起来做为最后的多模态回复。
  值得注意的是,在G的输入端,我们还需要一个图像文本描述翻译模型,来将所有对话历史中的图像转化为对应的文本描述。
  检索式基线模型
  下图展示的是多模态检索模型DE,研究人员复现并改进了PhotoChat的图片分享算法,并将其扩展为同时具备判断模态意图与检索文本图像的能力。
  简单来说,该模型包括一个回复模态意图预测模块和一个回复排序模块,它们具有相似的模型结构,并利用CLIP分别编码对话历史U以及回复候选集C中的文本和图像。
  在模态意图预测模块做出下一个元素的模态预测后,排序模块会从C中选择与其相关性最高的作为多模态回复的组成部分,直到模态意图预测模块判定已被完整检索回为止。
  研究团队
  本篇论文的研究团队来自北大和微软。
  其中一作冯家展,是北京大学智能学院的博士生,在MSRA实习期间完成本次研究。
  论文和GitHub链接附在文末,如果你是硕士生博士生博士后教职员工研究型员工等,可以点击申请访问权限~
  GitHub链接:
  https:github。comvictorsungoMMDialog
  论文链接:
  https:arxiv。orgabs2211。05719
  参考链接:
  https:mp。weixin。qq。comsSArX84T1CDW6p2jWGxPc8A
  完
  量子位QbitAI头条号签约
  关注我们,第一时间获知前沿科技动态
投诉 评论 转载

百万量级的多模态对话数据集来了,153万张图片4000多主题羿阁发自凹非寺量子位公众号QbitAI百万量级的多模态对话数据集来了!MMDialog,这个由北大微软最新发布的英文数据集,包含了108万个来源于真实世界的高……年轻人涌入盒马奥莱,开始和老年人拼手速比省钱想要下沉的盒马,推出了盒马奥莱和盒马邻里。结果,寄予厚望的盒马邻里活了一年,就开始大规模撤店;相比之下,同样活了一年的盒马奥莱,在盒马体系里,尽管低调,地位却越混越高,上演了一……北京小伙到广西农村参加朋友婚宴,随礼999却被连本带利退回北京小伙到广西农村参加朋友婚宴,随礼999却被连本带利退回大学校园是汇聚八方好友的地方,且还处于学生时代的大学生们大部分未体验过社会的打压,内心的那份情感仍旧纯粹。……大空头变股东?重炒瑞幸的雪湖资本公布新一季持仓南都湾财社讯记者陈盈珊近日,雪湖资本创始人马自铭在富途上公布了一份长达81页的报告,详述为何看好瑞幸咖啡的发展,更表示自己已经买入了瑞幸的少数股份,而且瑞幸目前占雪湖管理资产的……坚持做核酸有无必要?官方回应不再判定密接的密接,取消入境航班熔断机制,将风险区调整为高、低两类,纠正核酸检测一天两检一天三检等不科学做法,加快新冠肺炎治疗相关药物储备二十条优化措施公布后,引起社会广泛关注……完爆广东!中国男篮前内线打服杜锋,他不比沈梓捷王哲林更强?本赛季的CBA常规赛激战还在进行中,夺冠大热门广东队对阵大黑马山东队之间的比赛成为了球队的焦点。而在广东队缺少了核心内线易建联的情况之下,山东队凭借陶汉林与布兰登保罗等人的出色……闽东特色乡村振兴之路柘荣靴岭尾村党建引领探索乡村振兴路日前,柘荣县靴岭尾村获评福建省乡村振兴实绩突出村福建省乡村治理示范村福建省金牌旅游村。近年来,柘荣县城郊乡党委和靴岭尾村党支部从文旅融合、支部领办等方面推进乡村振兴建设,靴岭尾……滇越铁路生命的故事让中国故事传遍世界滇越铁路修建于百年之前,如同血脉一般贯穿云南东南部,连接着山和海。在一个世纪前,它的通车,给了红土高原上亟待睁眼看世界的人们一个窗口,也让异域风情沿路盛放,经过文明的转化、蜕变……WTT冠军赛将开打!早田希娜缺席,中国女乒4大主力谁将与伊藤再过8天,即10月19日~23日,为期5天的2022WTT冠军挑战赛就将开打了,这次是在中国队的主场:澳门举行。WTT冠军挑战赛,在WTT赛事体系中,仅次于大满贯和世界杯……二十大时光丨劳模创新工作室里的二十大时光【二十大时光】原标题:四代劳模聆听二十大报告,传递技能报国接力棒(引题)劳模创新工作室里的二十大时光(主题)工人日报中工网记者毛浓曦通讯员祝盼张占军、岳……麦当劳中国荣获怡安2022中国最佳ESG雇主为下一代创造更美麦当劳中国荣获怡安2022中国最佳ESG雇主。麦当劳中国将可持续发展融入文化DNA,推动绿色餐厅、绿色包装、绿色供应链、绿色回收等多方面行动,致力于为下一代创造更美好的未来。同……江苏2大名酒陨落,辉煌时销量不输洋河,如今却卖不出去鱼米之乡,人间天堂。但其实江苏不仅仅有这些标签,它还有这酿酒大省这个省份,作为白酒产量仅次于四川的省份,江苏这块土地上可以说好酒遍地。不过说起江苏的白酒,现在大家都……
毛孔粗大是怎么产生的,有什么办法可以避免吗?体坛十杰陈梦落选,孙颖莎为什么可以入选?新疆高考分数线新疆高考志愿设置山东省人民政府省长副省长简介睡前一个动作暴瘦肚子不想要大肚腩就赶紧做起来路人对朱一龙的什么夸赞最入你心?如何避免日元理财陷阱飞机起飞时是靠轮子驱动起飞还是靠发动机喷气驱动起飞的?是纯粮食酒吗是浓香型纯粮食酒但并不能代表品质国乒男队每一代都是三驾马车,为什么樊振东这一代就他一枝独秀?临床医生兼教师个人工作总结心理压力大怎么办爱上烟酒或因精神压力大

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找