改变科学研究思路的十个知识创新点

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

中国科技论文在线1改变科学研究思路的十个知识创新点——探索汉语理论建设及中文信息处理的新路邹晓辉qhkjy@yahoo.com.cn519125广东珠海井岸桥东恒美花园15-2栋201号摘要本文介绍《字本位与中文信息处理的基础》1贡献的十个知识创新点,即:汉语及中文的基本原理,信息和智的本质定义及基本分类,认知心理学双语协同存储原理,形式理论的受限原理,序位逻辑原理及工具,语言和知识的通用计算方法和量具,生产式教学及协同智能训练体系,(产、学、研、教、用、算)一体化(知识信息数据)管理。其重要性不仅在于指出自然语言与机器语言的互换路径,除直接形式化之外还有间接形式化道路,对汉语形式理论建设和中文信息处理及基于中文的知识处理而言,后者更便捷而高效,而且还在于改变科学研究思路的十个知识创新点具有的整体功用。关键词汉语形式理论、中文信息处理、基于中文的知识处理、融智学的十个知识创新点1.引言在过去几年,基于语言学和信息学的融智学(如字本位与中文信息处理的基础)研究取得了长足进展[1义项语汇典例(SVDE)的总量控制模型(CLSW-5论文集)[1],重构“概念分类体系”的新思路与新方法(CLSW-6论文集)[2],优化“语义信息处理”的新方法与实施例(CLSW-6论文集)[3],字本位与中文信息处理[4];2理性的标准的协同智能模型(CAAI-11录用)[5],融智学的观点和方法(CAAI-11录用)[6],信息学基础研究(信息科学交叉研究学术研讨会2005北京)[7]和IntelligenceMeansInformationProcessing(智意味着信息处理)ZouXiaoHui(VIIInternationalOntologyCongress:RealorVirtual:fromPlato’sCavetoInternet2006,10,Spain)[8]]。然而也还有很多重要的问题没有得到满意的解决[如:3不同的信息观的分歧依然较大,信息本质的理论探讨仍在进行[9],汉语理论的本位问题仍未彻底解决[10],中文信息处理现有的三大流派[11]各自预期都是至少还需要几代人的努力才可望有所突破);4国际范围内语言与知识的计量问题仍然存在;5人类智力以及人工智能所涉及的智的概念的本质似乎仍未搞清()AI©2000-2007]。有鉴于此,本文系统地介绍了《字本位与中文信息处理的基础》提出的十个知识创新点,希望有助于改变汉语理论及中文信息处理的研究思路。它们体现的协同智能的观点、原理和方法至少可在“强人工智能”与“弱人工智能”之间形成必要张力。人脑与电脑的双脑结合及其相应的一整套“软件和数据库”系统实质上是(k+1)双文双语协同智能计算系统2。2.正文2.1领域字本位与中文信息处理,涉及语言学与信息学的一系列难题。这些问题中,最基础的是可否判断(如字词含义的消歧)与可否计算(如真实文本处理)两类问题。解答前者是人脑的擅长,解答后者是电脑的擅长。由于存在不可判断(ε)与不可计算(∞)这两类超出人脑与电脑处理范围的问题,因此笔者引入了(k+1)双文双语协同智能计算系统,把问题转化限制在可判断{0,1}与可计算{0,1}+{00,01,10,11}+…+{000…0,…,1…111}范围以内。于是,《字本位与中文信息处理的基础》实际上就是《融智学导论》3。2.2特殊性1广东省优秀科技专著出版基金会2006专家论证通过正式资助将于2007年底/2008年初出版发行。2涉及拓广的(包容大、小字符集的)形式语言、形式文法、形式体系、形式理论和形式科学。3专门研究(狭义的)协同智能的概念、原理和方法及其典型实例的新型科学理论,涉及微观语言学与信息本体学两个基础分支。融智学导论对理论融智学、工程融智学和应用融智学的研究成果只做简单介绍。中国科技论文在线2同样是研究自然语言,不同学科有不同的视角,基础语言学站在人类智能主体立场,采用自然人的视角;计算语言学站在人工智能代理立场,采用计算机的视角;融智学导论站在(k+1)双文双语协同智能计算系统“第三智能”立场,采用人机分工协作的视角。所谓“第三智能”就是继人脑智能和电脑智能之后而出现的协同智能,其特征在于:“人际、人机、机际、机人”之间的“合理分工、优势互补,高度协作、优化互动”4。2.3重要性自然语言与机器语言的互换主要是通过高级程序语言的中介而实现的。这条看似唯一的(直接)形式化途径与融智学导论的(间接)形式化道路相比,对英文信息处理而言是殊途同归,但是,对中文信息处理而言,前者就是“崎岖小路”而后者才是“平坦大道”,因为,现在基于小字符集的形式语言和形式文法,根本没有考虑汉语的情形,更加不是为基于大字符集的中文而构造的,所以有必要为汉语及中文订制相应的形式语言和形式文法,最好是能兼容大、小字符集的形式语言和形式文法。融智学导论(字本位与中文信息处理的基础)正是从“第三智能”的角度来提出这个课题的。英文信息处理的事实证明,词的“粗分”5与“细分”6是必需的。如果汉语的字与英语的词能等价,那么,也就可直接套用英文信息处理的做法,然而,问题在于汉语的字与英语的词之间,不仅不具备等价关系,而且,是两个完全不同的对象语言体系,各自的思维模式也不同,因此中文信息处理不能简单地直接套用英文信息处理的做法,事实也证明此路根本走不通(中文信息处理现有的三大流派各自的预期都是至少还需要几代人的努力才可望有所突破)。而本专著所提出的间接形式化道路顶多需要十年就可做到全面突破(而且其中每个阶段都可有一个个具体的惊人的大突破——如在汉语“词”的切分与标注的根本性问题上,如在机器翻译上,等等)。2.4研究途径从(k+1)双文双语协同智能计算系统的角度来看,解决汉语“词”的切分与标注的根本性问题,是从解析“字与字组的关系”入手的,首先,要给出“字”的形式化定义,其次,要实现“字组”的数字化划分,最后,要完成“(字的每个)义项”的字组化解释。具体做法可概括为:间接形式化、全域数码化和双文双语化,其特征在于子全域和超子域的进阶层式化7,而且有高效实用的(k+1)双文双语协同智能计算系统为具体实现手段。2.5基本假设假设1:如果脑与智不是一回事,那么,就没有必要等到彻底搞懂某一类脑才能理解智。假设2:如果智意味着信息处理8,那么,理解智的关键就在于理解信息(如数字意义)。假设3:如果任何符号形式都可转化为数字形式,那么,语言形式也可转化为数字形式。假设4:所谓理解,其实是在全局中对局部的准确把握或认知,如在参照系中确定序位。2.6(根本上具有创新意义的知识)贡献贡献1:发现并清楚地论述了汉语及中文的基本原理——字的迭交原理。图1是“字的迭交原理”(字组的“粗分”与“细分”是其派生原理)示意图。由图1可直观“字”这个概念的八个基本属性,分别揭示了微观语言学的文字、语音、语义、语法、语用、字典、释义元语和对象语言八个分支学科的研究对象。可用解析法把“形字”和“音字”从“迭交”的“复合字”中分离出来9从而明确汉语4协同智能的16字方针“合理分工、优势互补,高度协作、优化互动”5如:英语的十大词类——代词、数词、动词、名词、形容词、副词、冠词、感叹词、介词、连词。6如:英文信息处理的UCRELCLAWS5Tagset,UCRELCLAWS6Tagset和UCRELCLAWS7TagsetHere,UCRELmeanstheUniversityCentreforComputerCorpusResearchonLanguage,andCLAWSmeanstheConstituentLikelihoodAutomaticWord-taggingSystem.7这是以优化的形式理论为支持的科学方法的一个关键之所在。8笔者提交第七届国际本体学术大会(2006年10月2至6日西班牙)的科学论文题目。IntelligenceMeansInformationProcessing(智意味着信息处理)ZouXiaoHui(inZhuHai,China)9类似于“做(虚拟的)分体手术”,首先分离“形字”和“音字”,进而分离大、小字符集的“音字”。中国科技论文在线3及中文的“字”的形式特点:字(对象语言)具有一语双文(大、小字符集兼容)的特征。在传统的“实字”与“虚字”的基础上引入“用字”和“解字”,不仅可形成“字组方阵”,而且还可提炼出“组字公式”,从而揭示出“字与字组的关系”,如“意+义=意义”,在形式上只是一个简单的字符串公式,在内容上却是一个非常复杂而又十分重要的“组字公式”,其中前字限制后字。于是,现在的问题也就集中到了什么是意义这个问题上面来了。西方哲学“语言转向”以来,所有的科学预言和哲学反思几乎全都止步于这个被称为人文、社会和哲学等诸学科共同的核心问题或意义难题,竟然可用“意义=意+义”这样的一个十分简单的字符串公式直接地破题。这不能不说是汉语及中文一个非常独特的功能10。这些发现是以往的汉语研究未曾注意更未曾上升到理论高度并形成体系的知识创新点。其中区分“对象语言的字”和“释义元语的字(作为构造字组的基本结构单位)”甚至就是汉语“字本位”理论11也未曾注意且更未曾上升到理论高度并形成体系的知识创新点。图1(汉语及中文的基本原理)“字的迭交原理”示意图贡献2:给出了信息的一般科学定义(即“信息本体”)及其最基本的分类:∀(信息)=∀(义)+∀(文)+∀(意),其中,∀(文)含∀(物)的外观。∀(义)=可序位化的基本关系及其所构成的结构体系,∀(文)=可数字化的基本符号及其所构成的形式体系,∀(意)=可属性化的基本概念及其所构成的学问体系,(普遍的)信息是内容上可概念化、形式上可数字化、本质上可序位化的范畴,可划分为概念、符号、关系三个基本范畴12,其特例(如具体的信息)就是各种各样特殊的信息。贡献3:给出了智以及智力或智能的本质定义(即:智就是信息处理)及其基本分类。(人们通常所说的)智力或智能,其实就是(如某类)脑所具有的信息处理能力的简称。以生理的脑为载体(如人脑)的信息处理能力,即人脑智力;以物理的脑为载体(如电脑)的信息处理能力,即电脑智能;以人脑与电脑合理分工、优势互补,高度协作、优化互动的信息处理能力,即协同智能。分别代表着智以及智力或智能的三种基本类型,其共性在于三者都具有信息处理能力,其个性在于三者各自具有相互之间不同的特定的信息处理能力。贡献4:发现并清楚地论述了认知心理学双文双语信息处理与理解的协同存储原理。笔者在认知心理学双语者研究两个对立的学说13的基础之上进一步提出了理论与实际更吻合的新学说——协同存储模型(以往的单独存储模型与共同存储模型可分别被视为其特例中两个极端情形)。采用成熟的计算机数据库和数据仓库技术在个性化与标准化有机统一的策略指导下,成功地实现了协同存储模型的计算机模拟,从而,很好地解决了计算机辅助翻译或双文双语信息处理乃至知识管理的一系列常规难题。不仅对机器翻译和翻译记忆技术的10至少在此超级难题的解释上,英文不具备中文的这个优点。中文有自己独特的(区别于小字符集的)形式化途径。邹晓辉:重构“概念分类体系”的新思路与新方法(CLSW-6论文集)ISBM981-05-5217-311本该但是没有(注意且上升到理论高度并形成体系)。12理论融智学通论所述四大基本范畴:(物)载体;{[(意)概念、(文)符号、(义)关系]=信息}本体。13即:单独存储模型与共同存储模型。两者都有各自相应的部分事实作为其理论的实践支撑。中国科技论文在线4质量提高具有明确的理论指导作用和实践意义而且对语言与知识的定量处理很有效。贡献5:发现并清楚地论述了形式理论的受限原理:易判断易计算原理。笔者不仅对(基于小字符集的)形式理论进行了合理限制(即排除了不可判断的ε与不可计算的∞这两类超出了人脑与电脑的常规信息处理范围的情形),而且,严格地区分了子全域{0,1}和超子域及其各个进阶层式{0,1}+{00,01,10,11}+…+{000…0,…,1…111},从而为模式识别(间接地包含其

1 / 5
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功