苏新春教授承担的国家社科基金项目《基于国家语委“通用语料库”之上的义频词库的开发》获鉴定为优秀

发布时间:[2010-10-20]  阅读次数:

近日,由苏新春教授承担的国家社科基金项目《基于国家语委“通用语料库”之上的义频词库的开发》通过全国哲学社会科学规划办公室鉴定,鉴定等级为优秀。鉴定专家对该研究成果给予了高度评价,认为该成果是针对汉语基础理论和信息处理应用研究的前沿,课题结构庞大,内涵资源丰富,研究思路明晰,处理方法合理,数据严谨可信。
课题的主要成果为《多义词词义知识库及词义自动标注(SCT)》
一、 内容介绍
汉语词汇的定量研究一直集中在“词”的层面上,而对词的意义内部长期以来缺乏有效的研究。义频(即义项频率)研究成为当前语言学界及中文信息处理迫切需要解决的问题。要统计词的义项频率首先要实现计算机词义自动标注,故本课题的重点及最终目标放在汉语义频词库的研制上,其最终成果反映了“多义词词义知识库及词义自动标注(SCT)”的研究方法、理论、语料对象、区别规则及实现过程。分析对象为:现代汉语中的双音节、义项数在2-5之间、使用频率在100以上的3775条多义词。描写提取了3775条多义词义项间的“区别性形式特征”。研制了7个资源库(其中语法库为借用),开发了一系列知识发现、自动标注软件,最终从大规模语料库中得到有较高可信度的义频统计结果。下面是对课题“工程内容”和“理论探讨与创新”两方面的介绍。
(一) 工程内容
SCT是一个重视可操作性、追求目标实现的词义标注系统。它从语料库开始,到词语特征的描写,直至起支撑作用的相关资源库的建设,都进行了系统的工程建设。系统内含有7个起重要支撑作用的资源库,除语法库是利用学术界现有成果外,其他6个库都融入了课题组的艰巨劳动:语料库、义项库以利用为主,改造为辅;语义库、规则库、验证库为完全独立研制;义频库是计算机自动识别结果的体现。以下为7个资源库的简介:
1. SCT-CMC:现代汉语综合语料库
现代汉语综合语料库(SCT-CMC)的作用主要有两点,一是提取词义标注规则的来源与对象,二是对义项调整和义频估计的依据。容量达2.5亿字,包括新闻语料、文学作品、教材、科普作品等,力求反映现代汉语全貌。
2. SCT-WSB:词义标注用机用义项库
义项库(SCT-WSB)是词义标注的来源,是寻找词义特征、确定规则的依据,集中体现了词义标注的目的和结果。义项库以《现代汉语词典》第3版为基础,部分参考第5版,根据机用词典的特征作有调整,修改了义项含混、与语料不能对应的部分,调整后的WSB基本保持了《现汉》的规模。
3. SCT-TMC:现代汉语语义分类库
现代汉语语义分类库为描写多义词义项的区别性形式特征及语义关系的工具。语义库共收词8.3万条,运用了上下领属的分层级分类别的方法,主要是根据上下类的逻辑关系。共分出上下五级语义关系,计有一级类9个,二级类62个,三级类515个,四级类2085个,五级类12602个。同一语义类的词语往往有着共同的形式特征。有效地利用语义类可以避免在提取义项特征时只着眼于单个词语的繁琐与个别。将语义类嵌于软件之中,能有效地帮助对义项语义特征的识别。利用语义类,将具体词的语义特征上升为语义类别的共同性特征,从而在提取义项的使用特征时从单纯地观察语法层面作了一个极大的转变。
4. SCT-GKCC:语法库(现代汉语语法信息词典)
语法库(SCT-GKCC)(《现代汉语语法信息词典》)由北京大学俞士汶教授研制。本词典是我国中文信息处理界的一项出现早、影响大的重要资源。为了集中主要力量攻克难点问题,这里吸收了学术界已有成果,整合进了本系统之中。
5. SCT-SKB:词义标注规则库
词义标注规则库的(SCT–SKB)是SCT的核心部分,其他各知识库在这里得到了集成和化合。规则库是对多义词义项形式标记的语义和语法特征的描写集,是词义标注的主要知识源和完成标注的依据。该库保存对课题范围内3775条多义词的所有语义与语法形式特征的描写结果,有区别价值的规则多达2.7万余条。结合汉语特点与自然语言处理的阶段性,SKB对每条搭配规则的描写都包括语义内容、相对位置、语法属性三个方面。
6. SCT-SFB:义频库
现代汉语多义词义项频级库(SCT-SFB)有两个作用:一是作为词义标注的资源,是对现有多义词不同义项之间频率关系的一个估测式判断。二是SCT在完成词义标注后对已经处理过的语料的统计结果,可视为现代汉语多义词义项频率状况的反映。最终它将被统计出来的义频数值所代替,这是本课题的最终统计数据,也是最初立项的主要目标。
7. SCT-STC:验证库
现代汉语词义标注验证库(SCT-STC)的作用是对抽取出来的一定量的真实语料分别进行人工标注与机器标注,比较标注结果。用于对软件进行的词义标注效力进行检验,从而对规则的提取、修订、完善起到校正、验测的作用。验证库可用来检测各知识库,特别是规则库的效果。
本成果还研制了系列软件,与各知识库相结合构成了词义自动标注的完整系统。包括以下三个分别进行语料整理、搭配规则发现、词义标注的处理平台:
A 语料整理平台。由分词、词类标注软件(NER,由中科院研制)、格式整理软件(SCT_txtfmt)检索软件(SCT_search)搭配统计软件(SCT_cola) ,这些软件实现语料的整理、检索、搭配统计功能,侧重执行效率、批处理能力。
B 搭配规则发现平台。语义搭配知识库辅助建设软件(SCT_sbs)、验证库辅助建设软件(SCT_tebs),这些软件集成语料库、搭配统计结果、语义库、义项库,辅助人工发现搭配规则。
C 标注系统。主要是词义标注程序(SCT_WTS)利用课题形成的知识库,实现计算机自动标注功能,并标示所依据的规则。
目前对经过分词、词性标注,不进行句法分析的真实语料的处理中,抽样测试所得结果为词义标注正确率为76.8273%,其中可信度为100%的占22.85%,可信度在90%以上的达35.71%。根据工程原理,如在句法分析的基础上标注正确率将有所提高。
(二) 理论探讨与创新
近几年学术界对词义自动标注研究多集中于统计方法的探索,由于缺少充足的语言知识库作后台收效甚微,因此全面挖掘、整理、描绘多义词词义区别性形式特征就更显必要。本课题依托统计手段,着重语言知识、语言规律的挖掘探索。深入的理论探讨涉及词义标注理论与模式;词义区别性特征理论及描写方式;机用词典的性质、功能与传统词典的区别等方面。概括地说有:
1.总结了词义标注的方法、研究模式,认为统计手段的进步使大规模语义知识库构建成为可能,而单纯统计词义标注方法要想取得突破也必须有人工参与的语言知识库介入,提出了利用统计手段人工辅助建设词义标注知识库的研究模式,并研制了相关研究平台。
2.在语义聚合的基础上研究多义词义项区别性形式特征,在独立研制的“现代汉语语义分类库”基础上进行了词的语义特征的辨识、提取及语义关系的梳理,深入探索词义聚合、组合规律。
3.针对计算语言学中照搬传统词典的实践及不足,首次提出了“机用义项库”的命题,从性质、功能、特征等方面作了探索,并部分进行了建构“机用义项库”的实践。认为义项库在词义自动标注中具有相当重要的作用。它既是词义标注的对象、来源,又是规则提取的依据,一定程度上决定了词义标注难度、应用目标。在研究中根据语料的实际情况、机用义项库的要求与功能,对义项进行了修订与完善,成为本课题的一个重要特点。一方面围绕义项逻辑关系,义项设置与语料的关系发现并调整了传统词典中部分不适于计算机词义标注的义项设置方式。另一方面深入义项区分的粒度、价值问题,提出义项形式特征的概念,提出了既照顾义项间形式特征又兼顾意义内涵差异的义项归纳原则和方法。
4.将语言学理论和知识与计算机技术进行了紧密的结合是本课题的另一个特色。在充分运用计算机技术的同时,紧密结合语言学、词汇学、辞书学等,使整个研究工作立足于坚实的理论基础之上。
5.标注结果评价引入了可信度的评价方法。不同词的标注难度不同,可能达到的正确率不同,引入可信度的评价既方便其他研究利用词义标注结果,也能突出词义标注的难点促使以后研究更深入地发展。
二、 学术价值和应用价值
首先,能为多义词义项辨析提供了宝贵资源。“词义标注知识库”全面描写了多义词义项间区别性形式特征,规模远远超过了一般举例式的搭配词典,它不仅仅可以应用在计算语言学领域大大提高词义标注研究的正确率,在词典编纂、汉语教学等方面也有不可替代的作用。
其次,有助于语义理论问题研究的深入开展。如同类义项搭配是否有共性,有多大的共性。再如不同词义与上下文语境的联系方式、紧密程度是否存在不同,有怎样的规律等。这些都是词义研究中的基本问题,不仅影响到多义词问题,也会涉及到近义词、多义词,语义知识库等诸多方面。
再次,词义标注系统,以及对3775个多义词义项现状分布、频率调查的真实数据,对语言教学、词典编纂、自然语言处理等都有很好的应用价值,提供了第一手的准确数据,对提高应用的能力和水平起到了直接的推动作用。
课题进行过程中我们就一些基本问题与学术界进行了一些讨论主要有:
序号
成果名称
成果形式
作 者
出版社及出版时间 或发表刊物及刊物年期
1
从大规模语料中提取词表的几个问题
论文
苏新春
2005年第四届全国应用语言学研讨会报告
2
语言知识库的内化与细化——完善词义知识库之设想
论文
苏新春,王惠,卢伟清,秦少康
2005第六届汉语词汇语义学研讨会论文集
3
词义开放处理平台的研究和实现
论文
卢伟清,苏新春
2005第六届汉语词汇语义学研讨会论文集
4
《现代汉语语义分类词典》研制中若干问题的思考
论文
苏新春
2006第二届海峡两岸现代汉语学术研讨会
5
计算机多义词自动识别中的语义标注
论文
苏新春,李安
2008第九届汉语词汇语义学会议论文集
6
词义标注用义项库WSB对传统词典义项的改造与完善
论文
苏新春,李安,洪桂治
2009第十届汉语词汇语义学会议大会报告
7
论机用词典义项的形式特征及对义项构成的反思
论文
苏新春,洪桂治,李安,曾妍妍
2009年中国辞书高层论坛
8
机用义项库在词义标注中的作用及其完善
论文
苏新春; 李安; 洪桂治;
厦门大学学报(哲社版)2010年03期
9
义项分立与词的义域——从计算机词义标注角度对多义词义项的思考
论文
李安,苏新春
待刊
 
该项目2004年获得立项,研究时间共历时7年。项目研究过程中得到了人文学院和中文系的大力支持,项目成果也反映了我校语言学科在学科前沿所取得的新成绩。