视觉接地(Visually Grounded )指的是将语言和用户的语境中相关的事物联系起来处理的过程。王小捷教授首先介绍了视觉接地的自然语言处理的起源:视通道是接收感知信息最多的,因而也是语言的感知接地研究中需要主要研究的。同时机器视觉研究是有最好研究基础的感知信息处理,因而视觉接地有最好的研究基础。
在分享过程中,王小捷教授着重介绍了VGNLP的研究内容、发展和三个典型的研究任务。早期处理需要分别利用不同的方法,图像有向量,语言的向量表示还没有较好的方法。语言的向量表示方法给向下的研究提供了一种好的支撑。随之王小捷教授围绕跨模态检索、跨模态生成–图像描述、跨模态推理–视觉问答着三个典型研究内容展开了进一步的分享。
随着计算机技术的不断发展,国内外专家们不断提出新的理论和方法,设计出新的生成模型,使该研究不断取得新进展。隐喻机制由具体、熟悉或已知的概念(语言)及其关联结构来理解抽象、不熟悉或新的概念(语言)及其关联结构。通过建模这种语言的产生与发展机制,进行基于模态相关表示的认知计算,例如表示的抽象产生语言符号系统,表示的关联发展语言符号系统。最后王小捷教授表示未来视觉接地自然语言处理也将有很好的应用潜力。
BOUT
关于作者