国家语言资源监测与研究中心术语整理工作汇报

发布时间:[2007-12-02]  阅读次数:

 
教育教材语言分中心
苏新春
2007-11-27 北京·国家民委招待所
 
在国家语言资源监测与研究中心第三次工作会议上(2007816日—818日),铁琨副司长委托我教育教材分中心承担国家语言资源监测与研究术语的整理工作。这是语言资源监测理论建设的重要一环,本中心极为重视,返校后即组织了有三位教师、六位博士生、二位硕士参加的研究小组,经过三个月的紧张工作,召开了约25场讨论会,形成了现在这个包括282条术语、五个门类、六级层次的术语体系,现请各位专家审订。
下面我从三方面作简单汇报:一、工作思路与工作进程。二、整理原则与方法。三、主要收获与问题讨论
一、工作思路与工作进程
这次是语言资源监测与研究中心的首次术语整理,我们本着扼要、简洁、实用的原则,以术语统一、表义清楚、关系明确、初呈体系为规范整理的基本目标,突出实用性,达到基本能够满足研究工作需要的目的。
1.术语的收集、摘取、建库工作。(8月下旬——9月中旬)
8月底,平面媒体杨尔泓教授和有声媒体侯敏教授分别寄来79条与94条。另外从《报告(2005)》、《报告(2006)》遍查术语,凡是属于语言学术语的皆采集入库,共收集470余条。本着实用、够用、突出重点的考虑,并征求了司领导的意见,决定把工作重点放在《报告》的下编,纳入整理规范的有370余条。建立的术语库主表包括字段有:序列号(id)、术语(shuyu)、副条(futiao)、英译(yingyi)、定义(dingyi)、解释(jieshi)、出处(chuchu)、备注(beizhu)、分类(fenlei)、释义来源(shiyilaiyuan)、释义者 (shiyizhe)等。(“主条”为规范术语,“副条”为异名术语,“定义”是对术语内涵的揭示,“解释”是对定义的补充、说明或举例,“出处”是术语的原始出处,具有较好的代表性,“备注”为撰稿者整理过程中的笔记,“分类”是术语体系表,“释义来源”为释义所参考的文献资料,“释义者”为术语整理承担者)现呈现给各位的是“ID”、“术语”、“副条”、“定义”、“解释”五个字段,共有术语282条。
2.释义整理。(9月中旬——10月下旬)
本阶段工作重点是对术语释义,先由个人撰写初稿,分担任务按音序排列,个人释义,集中讨论,逐条逐字逐句地讨论打磨。
3.建立术语体系。(10月下旬——11月上旬)
本阶段工作重点是建立术语的分类体系,寻找相关相近的术语的内在联系性,统一术语的定名与释义。
4.定稿。(11月上旬——11月下旬)
重点讨论定义与解释的对应、体系的调整、格式的统一。
共举行了约25场讨论,平均每周两次,做到了集思广益。本中心师生有9人参加了课题工作,既出了成果,也培养了人才。
二、整理原则与方法
在整理规范工作中,遵照以下要求:
1.定义要求:
1)定义语言尽量简洁、准确、严密,格式统一、规范、对称,避免同指词语重复出现。
2)力求一个术语一个定义,避免一个术语出现两个定义的情况。如确实遇到多义,或广义狭义之分的,则用①、②、③分别列出。如果在一个相对宽泛的定义外在绿皮书中有特指含义时,统一使用“在本术语体系中”指称特指含义。
3)下定义时,对前置定语特别小心,避免因限制性定语的使用不当导致该术语外延或内涵的失当。
4)需要使用字词句等统计对象时统一使用“某一调查对象”字样,调查有一定范围的,统一使用“在某一调查范围内”字样。
2.解释要求:
  解释部分是对定义的补充性说明,文字叙述可长可短,一般要求举出典型例子加以说明。可上下参照或一目了然的。例如:
语料定义:用来分析研究语言存在、使用、演变规律的语言材料。解释:语料可以从载体、学科等不同角度分类,如从载体角度可分为有声语料、电子语料、纸质语料等;从学科角度可分为第二语言习得语料、法律语言语料等。
“广播电视语料”定义:电台、电视台播出的录音或录像材料。在统计研究中一般要转写为文本资料。解释:国家语言资源监测与研究中心有声媒体分中心的研究主要包括电台、电视台播出的新闻、访谈等有声语料。参见“转写语料”。
“转写语料” 定义:根据电台、电视台后备军出的录音或录像材料转写成文本格式的语料。解释:文本转写资料与原始有声语言之间存在程度不一的差异。
      注重对相关术语的解释,用“与……相对”格式加以表示。如:
“正体”:定义:规定下来的标准形式。解释:与“变体”相对。
“变体”:定义:“正体”的变异形式。 解释:与“正体”相对。
3.术语名称的统一
对大量同义异名术语作了名称统一的工作。表示调查对象的个数统一调整为“次”,如“字符数”调整为“字符次”,“词频”调整为“词次”等。表总数的术语除“总频次”没有做调整外,其他统一调整为统计对象在前,总数名靠后,如“总符号数”调整为“符号总数”,“总汉字数”调整为“汉字总数”,“总词数”调整为“词总数”等。
4.术语的照应与平衡
术语有着明显的对称关系与上下位关系,对《报告(2005)》、《报告(2006)》中没有出现的术语,但与已有术语有紧密关系的术语则作了适当补充。如因有了“线性相关”,而补充了“线性正相关”、“线性负相关”两个下位术语;因教材类型中有了“选文”,而增加“编文”;在“语言监测”下新增术语“实态”、“稳态”。
在最后的打磨中,对一些组合性强,字义明显,或有包含关系的术语则作了求简求精的删节,删去的有:周期系数、位序统计法、频位统计法、频级统计法、义频总数、非字母词、入门型、相关系数、教材数、出现文本数、义项号、教材独现字、缩略语、字长、词频统计软件等。
5.术语体系建构
科学的术语体系,应该可以清楚地揭示某一学科内各个概念之间的结构关系。通过术语体系的建构我们更好地认识到国家语言资源、语言监测概念体系中各概念之间的种属关系、上下位关系,全盘工作的系统化与科学化。
      我们最初把术语按照四大中心来进行划分,即平面媒体、有声媒体、网络媒体、教材中心。但发现按此划分,除了教育教材中心外,其他三家中心共有术语太多,特色术语太少。后来放弃了这种考虑。继之,又考虑在四大中心的基础上增加语言监测类、统计类和语言类,共7类,即按“语言监测理论”、“统计语言学”、“语言学类”、“有声媒体”、“平面媒体”、“网络媒体”、“教材中心”。划分出来的结果统计类、语言类术语太多,四大中心的术语偏少,且在统计类和语言类术语内部层次也较混杂,后来也放弃了这种分类。
现在确定的是五大类:一、语言监测及方法(84条),二、语言对象统计(49条),三、文字类(37条),四、词语类(85条),五、教材类(27条)。(第一类包括语言监测类术语和通用类计算语言学和统计语言学术语。第二类包括语言对象统计,主要是针对语言本体的统计。第三类包括文字类,按本体单位大小来先后顺序。第四类包括词汇本体的术语。第五类为体现教材中心的特色类术语。
这五大类为第一层。各自下面再分层分类,最小的有6层。列出的类名到第二层为止,第二层共31类。大类中的排列原则是通名,常见的、上位、概名泛称在前,具体的、下位的术语在后。其中一级类是5类,二级类是31类。
全部术语按照5个一级类、31个二级类的先后顺序进行排列。如在术语表中我们按照六级进行。例如术语“语言资源”编号为1-1-1-0-0-0。“语言监测”则编号为1-1-2-0-0-0。“实态”为1-1-3-0-0-0。而“实态”的下位术语“稳态”就编号为1-1-3-1-0-0。通过统一编号来体现术语学科类别和上下位关系。
三、主要收获与问题讨论
通过术语整理,深感到这项工作很有必要,很有意义。两年来中心的研究工作推进很快,推出了不少成果,但术语使用不统一的现象相当严重,司里把这项工作及时地提出来,放在重要位置来解决,对语言资源监测与研究工作的理论建设起到了很好的推进作用。
我们也通过术语的整理与规范工作,积累了知识,丰富了经验,学习了新知识,培养了后备人才。
在工作中也碰到不少困难,有的我们努力尝试着解决,但效果还有待检验,有的还需要讨论,还需要各位专家给予指导。如术语的平衡、对称、规范的要求,与通俗、习用的矛盾,如“分布率”与“散布率”的选用,“总词数”与“词总数”的选用。对尚未完全稳定的术语如何处理,如“二选表”,等。
 
撰稿:苏新春、周美玲
 
术语规范课题组成员:
苏新春(组长)、李焱、郑泽芝、周美玲(副组长)、杜晶晶、关俊红、刘扬涛、田立宝、蒋媛、卞成德、李少辉

 
附录一:国家语言资源中心术语体系表的前两级类名
五大类:
一、语言监测及方法(84条)
二、语言对象统计(49条)
三、文字类(37条)
四、词语类(85条)
五、教材类(27条)
一、语言监测及方法(84条)
1.1语言资源类
1.2语料类
1.3语料加工类
1.4统计学类
二、语言对象统计(49条)
2.1次类
2.2种类
2.3种数类
2.4总数类
2.5平均数类
2.6频率类
2.7覆盖率类
2.8分布类
三、文字类(37条)
3.1字符类
3.2汉字类
3.3字形类
3.4汉字使用类
四、词语类(85条)
4.1词缀类
4.2语素类
4.3词性类
4.4词类类
4.5词长类
4.6词义类
4.7词语类别
4.8语汇
4.9词表
4.10词典
五、教材类(27条)
5.1教材类
5.2教材语言类
5.3教学类
5.4课文类

附录二,参考文献:
1.《辞海》编委会,《辞海》,上海辞书出版社,1981
2.北京语言学院语言教学研究所编《现代汉语频率词典》,北京语言学院出版社,1986
3.李行健、曹聪孙、云景魁主编,《新词新语词典》,语文出版社,1989
4.黄伯荣,《现代汉语》,高等教育出版社,1991
5.高家莺、范可育、费锦昌,《现代汉字学》,高等教育出版社,1993
6.苏培成,《现代汉字学》,北京大学出版社,1994
7.尹斌庸、方世增,《词频统计的新概念和新方法》,载《语言文字应用》1994年第2
8.王鉴、李介,《双语教学的语言心理学研讨》,载《西北师大学报》(社会科学版)1996年第5
9.曾天山,《教材论》,江西教育出版社,1997
10.冯志伟,《现代术语学引论》,语文出版社,1997
11.桂诗春,《语言学方法论》,外语教学与研究出版社,1997
12.语言学百科词典编委会,《语言学百科词典》上海辞书出版社,1998
13.翁富良、王野翊,《计算语言学导论》,中国社会科学出版社,1998
14.季羡林主编,《语言文字词典》,学苑出版社,1999
15.张普,《关于语感和流通度的思考》,载《语言教学与研究》1999年第2
16.陈进雄,《以评价方式优化小学课堂教学》,载《教育评论》,1999年第5
17.隋岩、张普,《1997中文报纸媒体流通度分析》,载《计算语言学文集》清华大学出版社,1999
18.沈家煊,《不对称和标记论》,江西教育出版社,1999
19.戴维·克里斯特尔,《现代语言学词典》,商务印书馆,2000
20.吴汉周,《汉语数字和数字词语英译初探》,载《洛阳师范学院学报》2000年第4
21.刘开瑛,《中文文本自动分词和标注》,商务印书馆,2000
22.王远鸿,《中国股市波动的总体状况和特征分析》,中国物价出版社,2001
23.苏新春、顾江萍,《确定“口语词”的难点与对策——对《现汉》取消“口”标注的思考》,载《汉语词汇计量研究》,厦门大学出版社,2001
24.苏新春,《汉语词汇计量研究》,厦门大学出版社,2001
25.刘涌泉,《字母词词典》,上海辞书出版社,2001
26.白英彩,《英汉计算机大辞典》,上海交通大学出版社,2001
27.杨惠中,《语料库语言学导论》,上海教育出版社,2002
28.陈明礼、刘勇,《英汉习语及其翻译》,载《零陵学院学报》,2002年第4
29.黄昌宁、李娟子,《语料库语言学》,商务印书馆,2002
30温端政,《方言与俗语研究(温端政语言学论文选集)》,上海辞书出版社,2003
31.郭聿楷,《模糊词义漫谈》,载《俄语语言文学研究》2003年第2
32.郑泽芝、王强军、张普,基于大规模DCC语料库的《现代汉语常用字表》、《现代汉语通用字表》收字情况统计分析,第二十届东方语言计算机处理国际学术会议(20th ICCPOL 2003),2003
33.林寒生,《汉语方言字的性质、来源、类型和规范》,载《语言文字应用》,2003年第1
34.王立,《基于公众语感测量的汉语构词研究》,载江汉大学学报(人文科学版)20036
35.符淮青,《现代汉语词汇》,北京大学出版社,2004
36.李行健主编,《现代汉语规范词典》,外语教学与研究出版社,2004
37.李少琼,《重视语篇教学培养学生阅读理解能力》,载《课程教材教学研究(中教研究)2004年第5
38.中国社会科学院语言研究所词典编辑室,《现代汉语词典》第5版,2005
39.温端正,《汉语语汇学》,商务印书馆,2005
40.刘晓利,《统计学原理》,北京大学出版社,2006
41.许嘉璐、傅永和,《中文信息处理现代汉语词汇研究》,广东教育出版社,2006
42.“中国语言生活状况报告”课题组《中国语言生活状况报告(2005)》(下),商务印书馆,2006
43.苏新春、杜晶晶等,《教育教材语言的性质、特点及研究意义》,载《语言文字应用》2007年第4
44.张普,《关于语言的稳态》,国家语言资源与应用语言学高峰论坛论文集,2007
45.苏新春,《计量方法在词汇研究中的作用及频级统计法》,载《长江学术》2007年第2
46.“中国语言生活状况报告”课题组《中国语言生活状况报告(2006)》(下),商务印书馆,2007
47.傅爱平,《语料库研究与应用综述》,http://ling.cass.cn/yingyong/courses/corpusbase.htm