多语言通用,依存分析,社会计算,信息检索 我校在国际多语言通用依存分析评测中夺得冠军

05.07.2018  18:38

哈工大报讯(计宣/文)在刚刚结束的CoNLL-2018国际评测中,由我校计算机学院社会计算与信息检索研究中心(HIT-SCIR)车万翔教授牵头,博士生刘一佳、王宇轩、郑博组成的项目组取得第一名的好成绩。

CoNLL系列评测每年由 ACL(国际计算语言学协会)的计算自然语言学习会议(CoNLL)主办,是自然语言处理领域影响力最大的国际技术评测,有力推动了自然语言处理各项任务的发展。

与2017年的评测任务相同,今年的CoNLL 任务仍为“面向生文本的多语言通用依存分析”。从生文本出发,需要进行分句、分词、形态学分析、词性标注、依存句法分析等。今年评测任务面向57种语言的82个测试集。最终评价指标为在全部评测集上依存分析任务的平均 LAS(依存弧及标签准确率),除此之外还评测了 MLAS(形态学标记正确前提下的LAS)和 BLEX (内容词词形还原正确前提下的LAS)两项指标。最终包括斯坦福大学、IBM公司在内的27支队伍成功提交评测系统。我校项目组提交的评测系统在最关键的评测指标,即 LAS 上获得了第一名,高出第二名2.56%。

据了解,在2017年的评测中,共有45种语言64个数据集,斯坦福大学获得第一名,我校项目组获得第四名。今年,我校项目组采用基于图的依存分析算法,并使用大规模未标注数据预训练了上下文相关的词向量模型,大幅提高了系统的准确率。这些技术进步将融入语言技术平台(LTP)中,进一步提高LTP的性能。