来源:中国社会科学网
在计算机上进行自然语言处理,涉及多个学术领域,其主要研究目标是建立语言的各个层面,即词汇、句法、语义处理的形式化模型,进而通过计算机来验证这种模型。这在一定意义上又能支撑比较语言学与理论语言学方向,从而使少数民族语言学与应用语言学能够获得坚实的发展基础。
在民族高校,少数民族语言领域发展语言学与应用语言学学科,除了借鉴汉语外,少数民族语言研究内部无法找到现成的范本或样板,需要新的探索。尤其是应用语言学方向,其中计算语言学作为一个重点,学科建设从零起步,没有现成的可利用资源。尽管如此,由于西北民族大学在这一领域起步较早,目前已经取得较为喜人的成果。其中,作为具有交叉学科特色的计算语言学,已经有硕士研究生并开始招收博士研究生。
应用语言学学科方向构成
少数民族语言学与应用语言学学科方向由计算语言学、比较语言学和理论语言学三个方向构成,彼此相辅相成、环环相扣,既有各自特色,又相互铺垫,共同发展。1.计算语言学方向,主要利用语言学的新理论、新方法、新技术,以交叉学科为抓手,理性与经验有机结合,着力对少数民族语言进行研究与描写,建设少数民族语言知识库与资源库,着重在少数民族自然语言理解和语言教学、语言规划等领域发挥应用语言学的学科优势,起引领作用。2.比较语言学方向,开展汉语与少数民族语言或各少数民族语言间的比较研究,研究汉语与藏语在发展规律、发展倾向上的异同、历史渊源,汉语与藏缅语亲缘关系,包括语言、词汇、语法等,建立方法论和理论依据;对蒙古语族、突厥语族和汉语进行语音、语法、语言等文化特征研究,以及翻译研究等。这不仅为应用语言学领域的智能翻译打下基础,也有利于我国语言体系建设的进一步完善。3.理论语言学方向,以上两个方向的研究同时为理论语言学的研究提供数据和研究资料,在对各种语言的本体研究与调查中,用类型学的方法找到语言共性与个性,从而丰富研究内容和提升研究水平。
大型语料库建立计算语言学作用凸显
目前,在计算语言学方向主要开展了藏文字符、字丁、音节统计与处理研究,同时为建立民族语言语料库,攻克了自动分词与词性标注的瓶颈问题。就藏语而言,已经向国家信息化标准委员会递交了 “信息处理用藏语词类分类及标记集标准”和“信息处理用藏文分词工程规范”两项标准,已作为国家信标委在研课题进行深入研究;建立了规模为1亿字符的藏文大型语料库、50万词次的专业标注语料库、100万字符的史诗语料库等。
在比较语言学方向,开展了汉藏翻译与语言比较研究、汉蒙翻译与语言比较研究、汉维翻译与语言比较研究;同时,进行为机器翻译服务的语言描写研究、平行语料库(主要为短语对齐与句子对齐语料库)建设、少数民族语言与汉语的配价模式及对应研究等。
在理论语言学方向,主要为研究梵语语法理论、传统格语法与现代格语法的比较研究等,其中《梵语课程》教材采用从梵文翻译的语法理论及《根本颂》,对其进行注疏,自编教材,被评为省级精品课程。
计算语言学作为应用语言学的分支,研究语言及语言处理与计算相关的方面,语法形式化模型研究和各种语言综合知识库的建设是其重要的研究领域及难点所在。随着大规模语料库的建立,计算语言学显得越来越重要。在计算机上进行自然语言处理,涉及多个学术领域,计算语言学的研究与数学、语言哲学、人工智能以及认知科学关系都十分紧密。它的主要研究目标是建立语言的各个层面,即词汇、句法、语义处理的形式化模型,进而通过计算机来验证这种模型。这个研究方向在一定意义上又能支撑比较语言学与理论语言学方向,从而使少数民族语言学与应用语言学能够获得坚实的发展基础。
数字化平台建设提升自然语言处理能力
依托西北民族大学中国藏文典籍全文数字化研究所和汉语、藏语、蒙古语、维吾尔语等语言文化学院,目前将语言学与应用语言学的研究重点,放在中国藏语系《大藏经》的全文数字化及智能化检索上,为语言研究为主的各种不同学科研究搭建了一个具有国际水准和满足研究人员高端需求的数字化平台。这一平台的建成,将大大提升我国少数民族在自然语言处理、从语言角度对文献进行挖掘研究,以及藏学研究等领域的竞争实力。基于上述平台的字符、字丁、音节、词汇、句法研究,同时还要展开多语种资源库的建设和用于语言统计与检索的各种知识库研究与建设。
目前,在语言标准领域,正在推进《信息处理用藏语词类分类及标记集规范》、《信息处理用藏文分词工程规范》、《信息处理用藏语短语分类及标记规范》、《信息处理用藏文文献文本标记规范》、《信息处理用藏文排序规范》等五项标准和规范;同时,对已有的“藏语语法虚词知识库”正在加以完善,并要开展藏语语义检索知识库建设。另外,对于藏文音节数量至今没有统一结论,它分两种情况,即理论音节和表意音节,对于理论音节,我们根据计算机生成的结果为18077个。同时,我们通过建立3000万字符加25部藏文词典近37万词种的语料库进行统计,得出的藏文表意规范音节结论是9111个 (其中包括部分梵文转写的藏文音节),这是我们第一次知道藏文音节数,并且是通过语料库来完成的。通过语料库的方法统计藏文音节属于国家语言文字工作委员会标准项目之一,于2014完成并结项。尽管如此,我们将这项研究进一步深入开展,服务于语言教学和信息处理。
当然,面向信息处理和语言教学建设少数民族语言句法、语义体系,也是我们的一个重要目标,这项研究正在进行中。未来任重而道远。
(本文系教育部新世纪优秀人才支持计划(NCET-12-0665)部分成果)
(作者系西北民族大学中国藏文典籍全文数字化研究所教授、硕士生导师、省级重点学科语言学与应用语言学学科带头人)