(1) 高效多模态理解
大模型在各种下游任务上都展现出来不凡的性能。但是随着模型参数规模越来越大,在下游任务数据集上做全量微调的成本也越来越高。且对每个下游任务都需要单独训练、存储和部署一个大模型,这无疑带来了较高的计算成本,限制了大模型的落地应用。因此我们开展了基于高效参数微调(Parameter-Efficient Fine-Tuning)的大模型研究,在微调过程中冻结大模型本身的参数,仅微调极少的额外参数,可以达到与全量微调相当或超过的性能,不同任务只需要切换任务相关的那少部分参数。
图1 高效多模态理解介绍
成果:
① Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng. COMMA: Co-Articulated Multi-Modal Learning[C]. AAAI2024.
(2) 手语理解
手语是聋人在生活中常用的一门语言,然而掌握这门语言却需要大量的精力和时间,这无疑阻碍了听人与听障人士的正常交流。因此我们开展了基于深度算法的自动手语理解研究,旨在自动的将手语序列翻译为对应的句子/文字,从而促进听人与听障人士之间的交流。在该方面我们开展了以下方面的研究:①交互式手语理解。当前方法多针对于听障人士单侧输入,而忽略了对话场景中的交互式上下文。听人和听障人士的对话场景在生活中普遍存在,利用上下文信息对于理解手语具有关键意义;②背景无关的手语理解。在手语视频中,背景信息普遍存在。但是背景信息通常不包含过多有效信息,且复杂的背景会干扰手语理解。因此我们开展了背景无关的手语理解,旨在去除掉背景项干扰,提高手语理解效率;③高效手语理解。当前手语理解方法虽然已经取得较高准确率,但是资源消耗量仍较高。因此我们开展了高效手语理解,促进手语理解方法的高效化推进;④通用手语理解。在通用手语数据集上面向高精度、高泛化、跨任务开展手语研究工作。
成果:
① Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng. Scalable frame resolution for efficient continuous sign language recognition[J]. Pattern Recognition, 2024, 145: 109903.
② Lianyu Hu, Liqing Gao, Zekang Liu, Chi-Man Pun, Wei Feng. AdaBrowse: Adaptive Video Browser for Efficient Continuous Sign Language Recognition[C]//Proceedings of the 31st ACM International Conference on Multimedia. 2023: 709-718.
③ Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng. Continuous Sign Language Recognition with Correlation Network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 2529-2539.
④ Lianyu Hu, Liqing Gao, Zekang Liu, Wei Feng. Self-emphasizing network for continuous sign language recognition[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2023, 37(1): 854-862.
⑤ Liqing Gao, Haibo Li, Zhijian Liu, Zekang Liu, Liang Wan, Wei Feng. RNN-transducer based Chinese sign language recognition[J]. Neurocomputing, 2021, 434: 45-54.