2007数据发布专题研讨会召开
由教育部语言文字信息管理司、国家语言资源监测与研究中心主办,中国传媒大学有声媒体语言分中心承办的2007数据发布专题研讨会于11月27-29日在北京召开。
会上,教育部语言文字信息管理司司长李宇明在讲话中首先指出,从2004年国家语言资源监测与研究中心到现在,各分中心根据自身特点为国家语言生活的监测与研究做了大量工作,归结起来大致有以下几个方面:一是每个分中心都有了自己的发展规划,并逐渐探索适合自己分中心特点的工作领域;二是每个分中心都积累了自己监测领域的数据,包括数据库和一些相关的知识库;三是利用这些数据作为每年《中国语言生活状况报告》的重要内容向社会发布,社会和学术界产生了强烈反响;四是每个分中心都立了课题,取得了不错的成绩,有些还产生了很大的影响。总之,大家凭着学术热情和国家责任感为国家语言资源监测与研究中心的发展付出了很多努力。目前从各个方面反馈的情况来看,我们中心公布的数据得到了国内外的关注,有些已经成为基础性的数据。我们的一些语言规划的观念已经逐渐得到社会认可。
关于中心今后的工作,李司长强调了三个“基本”,即:一要做事要有基本规范,包括学术规范和行政规范;二要做好基本建设,特别是基本的资源建设。一定要把资源管理好,加工好。三要有基本理念,这种基本理念就是两个责任感:社会责任感和学术责任感。此外,我们还要特别重视知识产权问题,给社会树立一个良好的学风,良好的学术道德,良好的道德规范。
2007年11月27日术语审定会议
特邀专家:董昆 李行健
主持人:陈敏处长
苏新春教授介绍术语工作(见国家语言资源监测与研究中心术语整理工作汇报)
一、关于术语表的大小范围和提取的原则
李宇明司长:
明确术语表反映什么面貌,为什么服务。有区别的、别人看不懂的、有特色的要拿出来,各监测中心的术语都应该概括到,公用的术语可以不要。明确要解决什么问题,不任意添加,要有原则。
有把握的、成熟的可以公布,成熟一批公布一批。拿不准的,像“复现率”内部操作时注意,术语表可以先不公布,这样工作量可以小一些。
王铁琨司长:
收条应以下编为主,以绿皮书使用过的为主。
陈敏处长:
做绿皮书用到的术语,现不追求系统性。
张普教授:
基础(最低)原则上做到我们的内部统一;语言检测是一个新事物会产生一些新的术语,这些术语只有靠我们来定义、解释、规范,否则会影响到发布;已有的术语使用国际标准、国家标准的,我们自己产生的新术语要自己界定、说明;分清楚哪些是借来的、从哪借来的。
术语是5年修订一次。重要的通用术语可以直接借来,但需要清楚来自哪个国家(或国际)标准、或行业标准。
李行健教授:
词典讲究简单、准确和概括性
董昆教授:
绿皮书国际国内影响很广,术语应该尽可能的科学。公用部分的术语,比如语法、语言,可以采用现有的、成熟的、通行的。绿皮书专有的、特色的重点审定,作为以后使用的依据。讲究学术规范,增加英文名称。
魏励教授:
术语的范围:其他工具书没有收的、与其他工具书不一致的、限于本书(注页码、举例)、只列绿皮书用到的义项。
苏新春教授:
术语有体系性,突出实用性,达到基本能够满足研究工作的需要。
侯敏教授:
术语表为读者读懂绿皮书,更为自己内部使用,应有规范的术语体系,应该体现绿皮书术语,意义上与其它领域术语的不同的地方。
二、术语定义适度问题
以“转写语料”为例
苏教授:
要明确圈内的术语解释还是普遍的术语定义,应该不限于本书。
王铁琨司长:
实际上这是一个为非通用术语。不同的中心用不同的术语。
陈敏处长:
这个术语还可以指从中文到拉丁文的转写。我们要做到内部的统一,再就是限于中心使用。
张普教授:
含括更广泛一些,包括所有的声音语料。指从所有声音语料转换到文字语料。
三、主、副条问题
李司长、王司长等:主副条应该是等义术语
苏教授:主条为推荐条,副条为同义术语一定要同义。
张普教授:
国家标准术语的做法是出条介绍完毕,后面用又称……,从标准出发容易过渡。真同义的术语列为副条。
苏教授:
采用参见条,有反复交叉现象,也可放在解释中。
王铁琨司长:
“节目文本”与“转写语料”不同,应该分为两条。
李司长:
不要仅遵循语言学的术语、遵循国际标准的术语定义,外面有标准定义的要引用,若已有定义含义不足,再具体化一下,如“我们这里指……”。从彼术语到我们的术语有个参照。
副条有两类:为便于检索两条都出;不常用,不太规范的,或临时偶尔使用的可以淘汰掉(第26、27去一条),不常用的术语列为副条。
增添的术语
原则上,属于监测中心研究的主要术语需要规范和增加。
增加的术语:
1. 动态
2. 媒体语言(各种信息载体如:报纸、书刊、网络、电视广播等上面所使用的语言。)
3. 平面媒体语言(
4. 有声媒体语言
5. 网络媒体语言
6. 动态流通语料库
7. 字频
8. 词频
删除的术语
原则上,绿皮书没有使用过的、或者通用的、不影响读者读懂绿皮书的、非主要的、有歧义的、没有把握的可以先不发布。
删除的术语:
1. 静态语料库
2. 监测语料库
3. 中文BBS
4. 门户网站
5. 网络访问量
6. 人工校对
7. 相关系数
8. 线性正相关
9. 线性负相关
10. 报纸位序
11. 频级
12. 分布
13. 复现率
14. 次
15. 出现种数
16. 网络用语种数
17. 汉字总数
18. 词总数
19. 英文字母
20. 英文字符
21. 变体
22. 古字
23. 规范汉字
24. 简体字
25. 编文
术语的内外有别性
术语应该有内部使用和对外发布两套:内部讲究可操作性,使用术语的人应该注意使用规范术语,不要使用容易引起歧义的,如“复现率”,内部使用“复现数”尽量避免使用“复现率”;对外发布的术语要规范、有把握、带有监测中心特色、可以帮助读者读懂绿皮书而且是监测中心重要的术语(如语言资源、语言监测)。
具体术语讨论(略)
2007.11.28新词语问题研讨会议
特邀专家:于根元、周洪波、周荐
陈敏处长主持
* 讨论了绿皮书新词语的性质
n 发布07年新出现的词语,但不代替词典学家的工作,只提供提示性释义。着重描写语言的“实态”和技术的“实态”。提供词,不区别发展命运和进行词源的考究。新词的初始出现和发展走势是我们的特色,关于稳态的内容提供给学者研究。我们可以报告词的引退率,新词的初现(出现)程度,报告语料的范围和新词的量等。
n 给出2007年新产生的词语表,但不作词源的追溯。
* 讨论了领域词语和方言进入通用领域的问题以及对这些词语是否媒体新词语属性界定问题。
* 讨论了流行语与新词语的关系问题,明确了它们的区别。
* 讨论并论证了新词语提取的技术路线问题。
2007.11.29分词标注研讨会
特邀专家:俞士汶
主持人陈敏处长
1.分词软件的问题
采用最可行的分词软件,注意绿皮书可比性;分词软件等资源监测用软件要形成自己的软件体系,开发有自主产权的软件。
可以使用我们的软件先跑新词部分。
2.发布的内容
仍发布带词性的词语表,但是以语言实态和技术实态的方式发布。
我们可以发布稳态的成分和动态变化着的部分,消失的部分和新出现的部分。我们不是仅发布语文词,还要关注“使用单位”或者“分词单位”。
总结
王铁琨司长:
(一) 我们进行的是语言实态的发布,语言实态的发布反映着技术的实态。我们不只关注语言的“动态”还要关注语言的“稳态”,要处理好发布、初步解读和后续研究的关系。我们主要提供基础数据给有关学者研究。这对于语言战略和应用语言学学科建设有参考的价值。
(二) 从长远而言绿皮书术语是有体系的,从实施上言,首先应该完成的是成熟的、有特色的、绿皮书专用的,自创的术语,通用术语应保持与已有成果一致,应该给出术语的英文的对照条目,这是涉及术语产权的问题,而且国外也感兴趣。
(三) 新词语的发布将是2007年的一个亮点。
(四) 三年一个轮回,从理念到软件都应该有个提高。
(五) 关于2007绿皮书的发布,时间上、争取7月完成,春节前第一次碰头会。