以图形图像识别为核心的人工智能技术已被纳入国家科技发展的重大战略规划,产生了重大经济价值。传统图像识别技术侧重于捕获显著目标、区分已知类别和表达简单语义。与之相比,精细化图像识别技术聚焦空间、类别和语义精细化,是为了让计算机看清不同尺度的目标、看全已知和未知目标种类,以及看懂复杂目标语义关系。因此,针对空间、类别和语义精细化三大目标,我们围绕如何实现空间信息高效利用、类别信息泛化迁移、复杂语义完备表达等科学问题,创新地提出多尺度的空间信息交织模型、域适应的类别信息泛化模型、多维度的上下文注意力模型,形成以下三方面学术成果。
首先,针对不同目标所在空间尺度差异大,导致目标难以预测的问题,提出多尺度空间信息交织模型,在提升空间信息的利用效率同时,有效节省目标识别所需的计算开销。
① Lin D, Huang H. Zig-Zag Network for Semantic Segmentation of RGB-D Images. TPAMI, 2020.
② Lin D, Shen D, Shen S, et al. Fusing Top-Down and Bottom-Up Context for Object Segmentation. CVPR, 2019.
③ Lin D, Ji Y, Lischinski D, et al. Multi-scale Context Intertwining for Semantic Segmentation. ECCV, 2018.
图1 :多尺度空间信息交织模型
其次,针对不同图像域的风格差异大,导致目标类别信息难以泛化的问题,提出生成式信息解耦机制,提升未知目标类别的识别精准度。
① Lin D, Wang X, et al. Generative Status Estimation and Information Decoupling for Image Rain Removal. NeurlPS, 2022.
② Feng T, Feng W, Li W, Lin D*. Cross-Image Context for Single Image Impainting. NeurlPS, 2022.
③ Lu C, Lin D*, Jia J, Tang C. Two-Class Weather Classification. TPAMI, 2017.
图2 :生成式信息解耦机制
再次,针对开放场景目标种类和数量不定,导致复杂语义关系难以描述的问题,提出显式上下文路径和多维度可切换的注意力机制,提升复杂语义关系表达的完整度。
① Lin D, Shen D, Ji Y, et al. TAGNet: Learning Configurable Context Pathways for Semantic Segmentation. TPAMI, 2022.
② Lin D, Zhang R, Ji Y, et al. SCN: Switchable context network for semantic segmentation of RGB-D images. TCYB, 2018.
图3:显式上下文路径和多维度可切换的注意力机制