2017年11月5日至6日,由北京大学计算语言学教育部实验室、北京大学中文系、中国语言学研究中心、美国宾州大学语言资源联盟(LDC)联合主办的主题为“语言资源构建——理论、方法与应用”国际研讨会在北京大学隆重召开。会议邀请了来自国内外十数名专家做主题演讲,并围绕“语言资源构建的理论、方法与技术”“语言资源与深度学习”“语言资源在语言计量与社会服务中的应用”等议题展开了热烈的讨论。
我中心主任苏新春教授在此次研讨会上做了题为《语料的规模与质量——教育教材语料库建设的思考与启示》的报告。报告从我国语料的规模与质量入手,深刻地揭示了我国语料库建设的发展特点及教育教材语料所呈现出来的四个独有特征。
苏新春教授认为,现阶段我国语料库建设的特点是“对语料数量的强追求”“对语料平衡的强追求”“对语料历时的强追求”,他指出语料规模、语料平衡、语料的历时演变,都是前一时期语料库建设中具有重要价值的选择与追求,它直接推动、引领语料库建设的发展。 但在概一统之的思路下,在语料库建设普遍开展、并日益追求语料库的质量、效益、价值的时候,这一思路的不足,对它需要抱以“一分为二”的态度。接着,苏教授指出在语料库建构的趋势下,教育教材语料库“语料数量被轻视了”“语料价值被低估了”“语料特点被忽略了”。随后,他用丰富的数据向与会专家展示了教育教材语料独有的鲜明特点——学习性、教学性、学科学和规范性,并强调教育教材语料从语料规模上看“不起眼”,但我们一定要“善待”教育教材语料,语料的规模重要,但是语料的质量更重要。
