备受业界关注的“2019世界人工智能大会”上,伊利诺伊大学厄巴纳香槟分校计算机系终身正教授HengJi出席达观数据主办的“理解语言,拥抱智能”主题论坛,分享了跨语言跨媒体跨领域信息抽取的研究进展。
信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助人们将海量的内容自动分类、提取和重构。信息抽取无论是在信息检索、问答系统还是在情感分析、文本挖掘中,都有着广泛的应用。
抽取的信息通常包括实体(entity)、关系(relation)、事件(event)。从非结构化文本中识别事件和实体关系等复杂的语义图结构,是一项具有挑战性的信息抽取任务,而从资源不足和标注不足的语言所书写的文本中提取语义图结构无疑更加困难。
在大会现场,Heng Ji教授介绍了跨语言跨媒体图结构对于上述任务的适用性的相关研究。相比于之前仅限于序列层面的跨语言迁移研究,Heng Ji教授团队观察到,关系事实通常由跨多种语言和数据模态的可识别的结构化图模式来表示。通过利用符号信息(包括词性和依赖路径)和分布信息(包括类型表示和上下文表示),形成了关系相关、事件相关的语言通用和模态通用的特征。
Heng Ji教授看来,在语义学里大家比较关注词层面,对于信息抽取中间差距较大。对人和很多实体来讲,表示并不是将每个词加起来,需要将其作为独一无二、不可组合的,且必须在语义空间里有自己独享的节点。
在这个基础上,Heng Ji教授又介绍了如何使用图卷积网络将所有实体引用、事件触发词和上下文表示到这个复杂且结构化的多语言统一空间。以这种方式,将来自多种语言的所有句子和来自图像中的可视对象表示为一个共享的统一图表示。然后,从标注好的源语言中训练一个关系或事件抽取器,并将其应用于目标语言和图像。Heng Ji教授表示,在跨语言和跨媒体关系和事件迁移方面的大量实验表明,这个方法在最多3000个训练样本上实现了与现有的SOTA监督模型相当的性能,并且显著优于从单一表示中学习的方法。
Heng Ji,伊利诺伊大学厄巴纳香槟分校计算机系终身正教授。从清华大学获得学士和硕士学位,从纽约大学获得博士学位。致力于自然语言处理研究,尤其是信息抽取和知识库构建。于2016和2017年被世界经济论坛选为年轻科学家以及全球未来计算委员会委员。她获得的奖项包括人工智能领域十大新星以及美国自然科学基金职业生涯奖。