2月9日上午,公司第304期阳光论坛在崇真楼A4031举办,香港城市大学曾超博士受邀作题为“基于深度神经网络的图像与文本表征学习”的学术报告,该论坛由yl23455永利经理胡新荣教授主持,公司科研带头人、青年博士共同参与了该论坛。
在报告中,曾超以提升图像和文本理解任务的性能为目的,向大家重点阐述了基于深度神经网络的学习深度表示内容:一是用于图像字幕评价的对比句子表示学习,提出基于递归神经网络和对比学习的内在图像字幕评价度量,它由作为编码器的双向GRU和作为解码器的LSTM组成,并由自我监督和对比语义学习提供支持;二是图像字幕的跨模态表示学习,提出改进图像字幕的内在跨模态字幕模型,不仅将学习从视觉特征解码,还将学习图像文本跨模态特征以获得更好的性能;三是卷积和Transformer联合表示学习,利用深度CNN层和Transformer编码器的混合框架用于图像质量估计,提高了图像质量评估任务的性能;四是用于RGB-D显著性对象检测的双Swin-Transformer表示学习,提出基于双Swin-Transformer的交互密集解码网络,以更好地进行任务的表示学习。
简介:
曾超,男,香港城市大学计算机系工学博士,主要研究方向为图像描述、图像质量评价、自然语言处理及显著性目标检测。