抛砖引玉。很高兴今年出了三篇ACL论文,个人感觉都挺有意思的。这里先分享一下主要想法,稍后会整理好后放出论文、代码和数据:
来自博士生涂存超(个人主页:Cunchao Tu's Homepage)和本科生刘晗的 CANE: Context-Aware Network Embedding for Relation Modeling 。网络表示学习是社会计算的研究热点,在过去的方案中,每个网络节点只有一个固定的表示向量。而实际上,网络 节点会根据交互对象的不同而呈现出不同的特性。例如在学术合作网络中,A和B合作的主题与A和C合作的主题很可能截然不同。该工作利用社会网络中用户产生的文本信息(如论文),采用cross attention技术,建立了上下文敏感的网络节点表示学习模型,在这里某个网络节点的表示会根据链接邻居的不同而不同,该算法在社会网络链接预测任务上表现非常好。
来自博士生林衍凯(个人主页:Yankai Lin's Homepage)的Neural Relation Extraction with Multi-lingual Attention。这是对他去年ACL 2016上Neural Relation Extraction with Selective Attention over Instances的扩展,将去年提出的sentence-level attention扩展到了多语言场景下的multi-lingual attention,简单有效,显著提升了多语言场景下关系抽取的性能。个人非常喜欢这种简单有效,直击关键所在的工作。
来自本科生牛艺霖和硕士生谢若冰(个人主页:Ruobing Xie's Homepage)的Improved Word Representation Learning with Sememes。国内原创的语言知识库凤毛麟角,HowNet是其中翘楚。HowNet的创始人董振东先生认为,所有词汇的语义都可以用有限的原子语义(义元)组合而成,在这一思想的指导下,经过十余年的努力,形成了HowNet这一庞大的词汇语义标注框架。在十年前,国内很多学者曾利用HowNet开展了非常多原创研究,包括词汇相似度计算、词义消歧等。但最近几年HowNet有逐渐被冷落的迹象,少有有影响力的研究。我们认为,打破词汇级别的屏障,对词汇背后复杂而丰富的语义信息进行精准建模,是实现自然语言理解的关键所在,而义元无疑是十分有力的工具。在这篇工作中,我们尝试在词表示学习中引入义元信息,取得了非常好的效果,也发现义元标注对于复杂语境下的词义精确识别具有重要价值。我们认为,分布式表示(词表示学习)与符号表示(义元标注)的结合,能够赋予模型更好的区分能力和可解释性,在这篇工作之后,我们正在进行更加深入的探索,也建议引起更多学者关注。
有网友评论问WordNet和HowNet的区别,这里多说几句。WordNet通过Synset来管理词汇。每个Synset包含几个词,构成一个明确的词义;某个词通过放置在不同Synset中来显示它的不同词义。HowNet则人工构建了数千个互相独立的义元,每个义元可以看成是最小语义单位;HowNet通过不同的义元组合来标记词汇不同词义。两者的构建思想截然不同,很有意思。我个人认为HowNet的义元具有独特的重要意义,与WordNet的广泛流行相比,HowNet的价值被极大地忽视了。