CSIG图像图形中国行-亚博足彩
论坛名称:CSIG图像图形中国行-亚博足彩
论坛时间:2021年5月16日14:00
会议地点:亚博足彩新科技楼1012报告厅
主办单位:综合业务网理论及关键技术国家重点实验室
报告1:基于音视频联合及少样本对齐的视频行为定位与识别
讲座人介绍:
林巍峣,上海交通大学教授。分别于2003年和2005年获得上海交通大学学士和硕士学位,并于2010年获得美国华盛顿大学西雅图分校获得博士学位。曾在包括Motorola, Real Networks和Thomson Technology在内的多家公司的研究机构担任Research Intern。主要研究方向包括计算机视觉、视觉监控、视频行为理解、视频及语义信息编码等。林博士现任IEEE Trans. Image Processing, IEEE Trans. CSVT、IEEE Trans. ITS等期刊编委及ICPR20, BMVC19, MM18、ICIP19、ICME18等领域主席,并任IEEE MMSP、IEEE MSA TC、IEEE MMTC等学术专业委员会委员。在相关领域共发表期刊论文100余篇,含IEEE Transactions系列及CVPR、ICCV、AAAI等权威期刊和会议论文40余篇,获专利18项。
讲座内容:
在本次报告中,我们将首先介绍基于音视频的联合信息,对于视频中的目标和行为进行定位和感知的工作。通过音视频的多模态融合,可以更精准地实现视频中关键目标和行为的定位和感知。其次,我们也将进一步介绍基于少样本的行为识别工作,通过设计两阶段的时域对齐,解决视频少样本识别中样本的时域不一致性,有效提升少样本行为识别的精度。
报告2:异质迁移度量学习
讲座人介绍:
罗勇,武汉大学计算机学院教授。分别于2009年和2014年在西北工业大学和北京大学取得学士和博士学位,曾在新加坡南洋理工大学从事博士后研究。主要研究方向是机器学习和数据挖掘及其在视觉信息理解和分析方面的应用。共发表包括IEEE TPAMI在内的40余篇高水平论文,是2016年中国计算机学会(CCF)优秀博士论文获得者。曾获得IJCAI最佳论文提名(2540选3)和IEEE Globecom最佳论文奖,并与他的合作者获得IEEE ICME和IEEE VCIP最佳论文奖。所发表论文Google Scholar总引用1300余次。
讲座内容:
距离度量估计的准确性在很多机器学习算法和应用中起着至关重要的作用。在目标域标注信息有限的情况下,迁移度量学习(TML)能够有效利用其它相关域的信息来帮助目标域度量的学习。现有的TML方法通常假设不同的数据表示相同(在同一特征空间)。但在很多实际应用中,不同域的数据可能来自完全不同的特征空间,甚至存在语义鸿沟。为了解决这一难题,我们提出了一系列的异质迁移度量学习方法,其中基于张量的异质多任务度量学习方法不仅能够处理任意多个异质域,而且可以充分挖掘不同域之间的高阶关联信息。此外,基于知识片段迁移的异质迁移度量学习方法有效能够挖掘数据分布的非线性结构,算法简单,方法灵活通用。
报告3:视频定位研究进展
讲座人介绍:
赵洲,浙江大学计算机学院的副教授,博导,从事多媒体关键技术研发。在NIPS、ICLR、ICML、CVPR等会议发表20余篇论文,被引3000+次(Google Scholar)。主持两项国家自然基金项目和浙江省项目。
讲座内容:
给定一个未经裁剪的视频与相对应的文本查询,视频时序定位旨在确定与描述语句具有最高语义相关性的视频片段,该任务通常使用机器学习或深度学习的方法解析并对齐视频与文本中蕴含的语义信息。目前,视频时序定位具有以下挑战:1.文本与视频属于不同模态的数据,其表达形式与理解方式均有较大差异,这便要求时序定位模型具有跨模态语义理解、关联与融合能力;2.同一视频的不同片段具有较高的相似度与一致性,这也要求模型能够具有良好的细粒度区分与辨别能力。针对以上挑战,近期的工作提出了基于多头注意力机制与语义图结构的预测方法、基于时空图推理的预测方法与基于多级决策分解的预测方法等较为有效的思路,从而较好地解决上述难点。本报告将首先对视频时序定位进行展开阐述,并介绍若干具有启发意义的视频时序定位工作,最后对未来的研究方向与目标进行讨论与展望。
报告4:视频人体行为理解:方法与数据
讲座人介绍:
王利民,南京大学教授,博导。2011年在南京大学获得学士学位,2015在香港中文大学获得博士学位,2015年至2018在苏黎世联邦理工学院(ETH Zurich)从事博士后研究工作。研究方向为计算机视觉与深度学习,具体关注视频理解和动作识别。在国际重要期刊(IJCV/T-PAMI等)和会议(CVPR/ICCV等)发表学术论文40余篇,根据Google Scholar统计,论文被引用10000余次,H-index 32。提出的时序分段网络(TSN)获得2016 ActivityNet比赛冠军,该技术已经成为动作识别领域的基准方法。获得奖励:江苏省优秀本科毕设团队奖(2012)、吴文俊人工智能科技进步二等奖(2019)、广东省技术发明一等奖(2019)、世界人工智能大会青年优秀论文奖(2020)等。
讲座内容:
视频理解已经成为人工智能研究的热点和难点,其中人体动作识别已经成为视频理解领域的关键技术之一。有效的视频表征技术和高效的时空检测框架,是人体动作识别研究的难点。在本次讲座中,我们主要介绍南京大学媒体计算组(MCG)在视频人体动作理解方面的系列工作,具体包括视频动作的表征方法和检测框架。针对视频短时运动的表征与建模,我们提出了高效和动态的时序建模模块(TEINet,TAM,TDN), 在速度效率和建模精度方面取得较好的效果;针对动作时空检测,我们提出了一种面锚框的时空管道检测器(MOC)和端到端检测框架(OEEDet),在基准数据集取得了较好的效果;最后将介绍我们在动作检测方面数据集工作,我们提出一个面向多人运动场景的时空动作检测数据集(MultiSports),该数据集收集了近3000多段长视频,精细标定了4种体育运动场景中60多种复杂动作,对视频时空动作检测提出了新的挑战。最后将总结和展望视频人体行为理解的发展趋势。