有 5 篇论文入围最佳论文奖(Best Paper Award)候选,其中,哈工大聂礼强教授团队获得了备受瞩目的最佳论文奖。
聂礼强教授的获奖论文题目为“Search-oriented Micro-video Captioning”,由哈尔滨工程大学(深圳)、山东大学、快手、华为和佛罗伦萨大学联合团队共同完成。
这篇论文主要研究如何为“没有视频描述的短视频”自动生成一个文本描述的问题。为了给38%没有文字描述的短视频自动生成有一个抽象的文本描述,研究者通过建立相关模型,从针对用户搜索需求的角度自动生成文本去描述一个短视频,以满足用户搜索视频的多样化需求。
以往工作致力于以内容为导向的视频字幕工作,从创作者的角度生成相关的句子来描述给定视频的视觉内容。这项工作的目标则是以搜索为导向,通过用户的角度生成关键词来总结给定的视频。除了相关性,多样性对于从不同角度描述用户的搜索意向也至关重要。
为此,研究团队设计了一个大规模多模态的预训练网络,通过五个任务来加强下游视频表征,该网络在研究团队收集的 1100 万个微视频上训练。之后,研究团队提出了一种基于流的多样化字幕模型,以根据用户的搜索需求生成不同的字幕。该模型通过重建损失在先验和后验之间的KL分歧进行优化。通过构建由 69 万个查询,短视频对组成的黄金数据集合,作者验证了他们的模型,实验结果也证明了其优越性。
据了解,这项工作所研发的“短视频摘要生成算法”在快手得到落地,已平稳运行半年,每日处理约 3 千万个短视频。
聂礼强教授,西安交通大学本科,新加坡国立大学博士、博士后,两次入选国际级人才计划,目前为哈尔滨工业大学(深圳)计算机学院二级教授、博导和执行院长,兼任 IEEE TKDE 、 ACM ToMM 等汇刊编委,以及 ACM MM 2018-2022 领域主席,2019 年获得 ACM 中国新星奖, 2020 年获得达摩院青橙奖, 2020 年入选《麻省理工科技评论》“ 35 岁以下科技创新 35 人”中国区榜单。
ACM International Conference on Multimedia (简称 ACM MM, ACM 国际多媒体会议)自 1993 年成立,是多媒体领域国际首屈一指的盛会,旨在展示多媒体领域的科学科学成就和创新工业产品,也是中国计算机学会推荐的该领域唯一的 A 类国际学术会议。
- 本文固定链接: https://douyinkuaishou.cc/?id=41368
- 转载请注明: admin 于 抖音快手 发表
《本文》有 0 条评论