投稿邮箱:wdwxtg@qq.com 论文发表QQ:329612706 微信:lianpu13
当前位置首页学术中心 学术资讯
  • 正文内容

汉字全息数据库的学术理念

阅读:562 次 作者:王宁 来源:搜狐 发布日期:2019-01-14 09:27:42
基本介绍:一起问道文艺网分享的学术资讯。

  日前,北京师范大学汉字研究与现代应用实验室开发的“汉字全息数据库”,得到了社会各界的广泛关注。作为一个继承和发展中国传统语言文字学的团队,二十年来,我们始终致力于传统语言学的现代转化,以及语言文字学与信息科学的交叉。汉字全息数据库是我们学术理念的一次展现,今天,章黄国学发表王宁先生在全息库发布会上的讲话,介绍汉字全息库背后的学术理念——汉字的信息化发展,始终要建立在学术思考的不断深化之上。

  2015年,我们通过竞标,接受了国家语委“通用汉字全息数据库建设”这一重大项目,这个项目被列入《教育部2018年工作要点》和《国家语言文字事业“十三五”发展规划》,也是教育部“奋进之笔行动”的一项重要措施。经过3个月的顶层设计和试点,1年零8个月的分部设计和实施,完成了总体框架,又用了1年时间补充、修改、完善,于2018年7月经过专家验收正式结项。

  结项后,我们在申请知识产权的同时,继续进行调整内容、更新技术的工作,使这一成果的科学内涵和应用价值进一步提高。“汉字全息资源应用系统”,是这个项目的现有成果。在这里,我代表设计团队和制作团队,介绍这个项目设计的三个主要理念。

  1.属性的分解

  这个项目以推进语言文字信息化建设为主要目的,具体说,是运用现代中文信息处理技术,构建一个具有多角度关系的汉字实用数据库。完成这样的项目,必须以汉字的属性为底层的依托。我们从上世纪90年代总结汉字的属性,从传统的形、音、义三方面的属性,增加了码和用两方面,由于汉字简化有大量字用合并的做法,造成简繁字存在“一对多”的情况,“用”就成为汉字不可不关注的属性;又由于汉字进入计算机后是以“内码”的形式存储,又是以“交换码”来调用的,所以,“码”便成为人机对话不可或缺的属性。

  在这5个属性确立后,我们做了大量的属性细化研究,将这5种属性西化了4个层次,这样就有条件将笼统的汉字个体的资源库,升级为汉字的属性库,解决关联的多层次、多角度问题。笼统的汉字关联信息量很小,而多角度的属性关联才能获得足够的信息,满足人和机两方面的需要。

  2.层次的确立

  在《通用规范汉字表》的研制中,我们采用了两个大型语料库,证实了周有光先生提出的“汉字效用递减率”,也就是说,汉字字频逐步降低,对汉语语料的覆盖率越小,应用的效用也就越小。这个原理是《通用规范汉字表》确定6500通用字的主要根据。之后,这个原理被用在《古籍印刷通用字字形规范》的项目中,以确定古籍印刷通用字的字数和字集。这一次,面对汉字UNICO编码已经扩充到8万多字,加之这个字符集整理的程度不高,根据我们多次调查,其中有实用价值的字不过36000个,如果让那些冗余的信息与有用的信息混杂在一起,只会增加信息提取的难度,降低系统的应用效率。盲目求全、求大而鱼龙混杂,是这些年数据库研制一个偏差。

  所以,这个项目的现代汉字字集,我们分为常用-通用-适用-罕用-无用5个层次,工作程序以3500-6500-8105为第一层次(再分3个小层次),首先解决简繁字关联的问题;再以27000-36000为第二层次,进一步解决异体字问题,其他字只存记忆,不作深度开发,随着属性的关联自动进入系统。这就把无限的关联变为可以操作的有限关联,而且没有影响属性库数据的完整与周全。这样做,一方面在应用中扩大有用信息的使用度,另一方面,经过使用,垃圾信息、无用信息、重复信息会由于“0关联”逐步退出退出系统,不再干扰有效信息的集合和调用。

  3.中介的寻求

  项目要求既有现代汉字,也要关联古文字和多种字体。如此众多的字样,实际上是历时汉字的积淀。汉字是表意文字,形制相同又共时的汉字各自成为系统,受汉语的话语系统的制约和影响,无法完全对应。例如,甲骨文记录的是卜筮语言、金文和战国文字多为应用器皿的铭文,均非自然语言,现代汉字是现代汉语的书写载体,与古文字的对应更是难以全然实现。很多次“全息”“字谱”等项目的研制,都只能实现局部,信息大量失落,关联出错的情况比比皆是。要避免这种现象,吸取以往的教训,我们继承传统语言学的研究成果,以多年《说文》学研究的优势,把《说文解字》的9353个小篆(加上重文10516个)字样为中介,不论何种联系,凡是不能直接联系的,都以《说文解字》小篆为中介来间接关联。

  《说文》小篆所以能负起作为关联中介的任务,是经过论证的。根据我们的研究,《说文》依托的是五经的话语体系,《说文》中的形义被汉语双音词词素承袭的概率几乎是100%,而古文字的确切识读,绝大部分是从《说文》开始的。系联的结果证明,这个中介寻求完全正确,保证了不同形制、不同字体、不同时代汉字的最大限度关联。

  以上三点,是我们设计这个应用系统主要的理念,也是这个项目能够在3年这样短的时间顺利完成的保证。

  在完成项目的过程中,我们深刻体会到两点:

  第一,理论先行,是项目有序而顺利完成的主要原因。应用若无理论指导,面对海量的数据只能迷失。我们的工作几乎步步有理论先行:不仅分级、分层、设置中介有足够的根据,共时的系联和历时的认同也是有规则在先的。解决字义问题是本项目的难点,所以采用古代训释的系联来体现,也是在我们多年论证过的“词汇意义系统论”和“古今词义沟通”的理论前提下才做到的。所以,若无汉字本体研究的理论积累,只凭计算机处理大数据的能力,只能堆砌材料,无法形成系统。

  第二,学科交叉十分重要,这样复杂的问题,只凭一个学科的知识与能力是难以完成的。理论在应用系统研制中是重要的,但是,没有计算机这样先进的手段和技术,光凭人脑,理论走向应用难以实现,即使是理论的发展,以及理论在大量的事实中的验证实也只能束手无策。

  我们是一支继承和发展中国传统语言文字学的团队,致力于传统语言学走向现代和语言文字学与信息科学的交叉,已经走过了20个年头,在这个项目里,我们经受了又一次考验。习近平总书记在纪念改革开放40周年大会上的发言提出,要推动中华优秀传统文化创造性转化和创新性发展。感谢国家语委给了我们这个传统语言学文字学的研究队伍一个对传统创造性转化的尝试机会,也感谢学校给了我们一个交叉学科的研究和应用的平台,以很大的力度支持我们的研究和开发。我们将更加深入地推进理论的研究,为国家和人民多做实事,也在工作中促进自己的成长。

  作者简介

  王宁,1936年生,北京师范大学文学院资深教授,北师大章太炎黄侃学术研究中心主任,章黄学术在当代中国的重要传人。


标签:学术
注:本网发表的所有内容,均为原作者的观点。凡本网转载的文章、图片、音频、视频等文件资料,版权归版权所有人所有。