1绪论本章首先介绍了本文的研究背景、研究意义,然后在对高新技术项目风险评估、专利地图、专利分析、案例推理和支持向量机技术五方面国内外相关研究工作调研、分析比较的基础上,提出了本文的研究内容、组织结构,最后介绍了本文的创新点。研究背景及意义随着社会经济的高速发展,高新技术产业在国民生产总值中的比重不断上升[1],高新技术对一个企业乃至一个国家、社会的发展具有至关重要的作用。高新技术正以前所未有的力量影响着全球经济的发展以及人们的生产方式[2],影响力和渗透力不断扩大,已经成为当今社会发展的重要动力源泉。国内外研究现状高新技术项目风险评估Moriarty等(1989)[5]在《高技术市场》一文中指出,将高新技术风险分为技术风险和市场风险。Belev(1989)[6]则将高新技术风险分为技术、支撑体系、资金、成本与进度、设计、外部因素等六类,并提出了基于效用函数(曲线)的风险评估模型。专利地图分析法专利地图起源于日本,当时主要是为了加快专利审批速度。随后,专利地图应用逐渐转移到工业,尤其是一些较大的以技术为基础的公司。专利分析研究专利分析(PatentAnalysis,PA)在国外已经有几十年的历史,下面分别从专利分析的理论研究、方法研究和应用研究等方面对专利分析的国际研究加以介绍。支持向量机技术支持向量机技术由统计学理论基础上发展起来,尽管产生时间不长,但其拥有坚实的理论基础。近年来,已取得了大量理论研究成果。如Shawe-Taylor等人[70]也给出了类似的关于软邻域支持向量机和回归情况下的误差界限;Anthony等人[71]给出了关于硬邻域支持向量机学习误差的严格理论界限;Smola等[72]提出了支持向量机一般意义下损失函数的数学描述;Westonetal.[73]andVapnik[74,75]和等研究了支持向量机的泛化性能以及在多值分类、回归问题的扩展等问题。案例推理技术基于案例推理(Case-basedreasoning,简称CBR)是人工智能领域中一项重要的推理技术。其是RogerSchank教授在研究认知科学的过程中,首先发现并提出的。案例推理技术目前的研究主要集中在以下几个方面:研究内容与研究框架研究内容与框架结构论文的主要内容一共分为六章,其中主要内容包括如下五个部分:从总体上说,论文主体的第二部分(论文第三章)、第三部分(论文第四章)、第四部分(论文第四章)、第五部分(论文第五章)是全文的难点和重点,也是论文核心所在。文中涉及的理论创新和方法创新主要分布在上述章节中。本文创新点2为了更加详细地了解项目风险状况和应对措施,本文采用案例推理技术构建了高新技术项目风险评估模型。另外,本文提出的基于核心案例的动态聚类索引方法和改进的切比雪夫检索算法对以往的案例索引和案例检索方法进行了改进,提高了案例检索的速度和准确率,具有创新性。相关概念、技术与理论方法介绍本章介绍了相关的概念、技术、理论方法及其在本文研究中的应用情况,为后面研究做好铺垫。本章研究首先给出了高新技术项目及风险的概念,并对本文的研究对象予以了界定;然后介绍了研究中使用的方法,主要包括:文本挖掘技术、专利地图技术、支持向量机技术和案例推理技术。下面分别介绍:高新技术项目及风险概述高新技术概念高新技术(hightechnology)是以当代最新科学成就为基础,以智力、技术、知识和研发资金密集为条件,其主导社会生产力发展方向,实现原有相关技术或产业上的间断性跳跃,对国家科技进步、经济发展能产生重大影响,并且能够促进产品和企业的发展,优化产业结构并影响现有支撑网络结构和性质的尖端技术群[102]。高新技术项目概念高新技术项目作为将高新技术成果转化为生产力的基本载体,国内外尚未有公认的定义。本文认同Bert等于2005年提出的观点[103]:高新技术项目区别于一般项目的特点主高新技术项目风险一般来说,风险是由不确定性引起的,其具体表现为结果和预期之间存在的差距。根据决策目标、决策行为和风险成因的不同,风险可以分为具有特定内涵的各种类型。专利地图的功能专利地图揭示了科技发展的重要趋势,充分运用不仅专利地图高新技术项目风险评估的过程中,首先需要对高新技术项目风险有一个宏观的把握,例如该高新技术项目是否有研发前景,该项目的承担单位是否有能力实施该项目等,而专利地图在对高新技术项目风险整体认知角度有其独特的优势,引起人们的广泛关注和应用。可协助企业进行有效的研发管理,而且有利于政府制定产业科技策略。从整体上看,专利地图的功能主要体现在以下几个方面:专利地图的类型根据专利地图制作目的,以及专利情报分析的侧重点,可将专利地图大致分为三类[118]:文本挖掘技术文本挖掘概念文本挖掘是由UsamaM.Feldman在1995年首次提出的[119],是指从非结构化的文本文档中抽取用户感兴趣的、重要的模式或知识的过程,它可以看作是数据挖掘或数据库知识发现(KDD)的延伸。3图错误!文档中没有指定样式的文字。-1文本挖掘过程特征表示向量空间模型中,文档被看作是由一组特征项组成的向量,每个文档表示为其中的一个范化特征向量1122,;,;;,nnVDtwtwtw,其中it为特征项,iw为it在文档D中的权值。这样所有的文档就构成了一个向量空间。当文档集合固定时,it值固定不变,故可看作特征向量的下标,从而特征向量简化为12,,,nVD。文本聚类文本聚类是无指导的机器学习,它将一个文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小[120]。文本聚类可广泛应用于文本挖掘与信息检索的不同方面,在大规模文本集的组织与浏览、文本集层次归类的自动生成等方面都具有重要的应用价值。图错误!文档中没有指定样式的文字。-2凝聚式和分裂式层次聚类示意图(2)自组织网络聚类技术abcdeabdecdeabcdeStep0Step1Step2Step3Step4Step4Step3Step2Step1Step0凝聚式分裂式数据源文本文档文本预处理特征表示特征提取……文本挖掘文本分类文本聚类关联分析……模式用户4自组织网络或称自组织映射(Self-OrganizingMaps)作为一种聚类和高维可视化的无监督学习算法,由芬兰神经网络专家Kohonen教授在20世纪80年代提出的[121]。图错误!文档中没有指定样式的文字。-3SOM网络该算法是通过模拟人脑对信号处理的特点而发展起来的一种人工神经网络。支持向量机技术支持向量机理论是从数据分类的研究中发展而来的,对于线性可分数据的二值分类,如果采用神经网络方法来实现,可简单地将解决问题的方法描述为:系统随机的产生一个超平面并移动它,直到训练集中属于不同类的点正好位于该超平面的不同侧面。支持向量机SVM是从线性可分情况下的最优分类面发展而来的,基本思想可用图2.4的两维情况说明。图中,圆点和方点代表两类样本,H为分类线,H1,H2:分别为过各类中离分类线H最近平行于分类线的直线,H1,H2线上的点表示离分类线H最近的样本,图错误!文档中没有指定样式的文字。-4最优分类超平面把数据从原空间dR映射到高维特征空间H,在高维特征空间构造最优超平面时,仅使用特征空间中的点积,即ijxx,训练算法。竞争层(输出层)x1x2xk输入层wkw1H1HH25图错误!文档中没有指定样式的文字。-5支持向量机示意图核函数常见的用于SVM中的核函数有四种,具体形式如下:①p阶多项式核'',,pKxxxx,1,2p(2.20)'',,pKxxxxC1,2p(2.21)其中C是常数,常取1。案例推理技术案例推理技术的基本思想案例推理技术的工作流程CBR的工作原理,就是模仿人类的认知心理过程一一利用已有的经验和知识来解决新问题。图错误!文档中没有指定样式的文字。-6基于案例推理的项目风险评估模型本章小结本章主要介绍了高新技术项目及其风险的相关概念,以及文本挖掘、专利地图、支持向量机和案支持向量输入x1x2xNK(x1,x)K(x2,x)K(xN,x)a1y1a2y2aNyNy…………6例推理技术的理论方法,指出了相关技术与方法如何在本文研究工作中得以改进,并加以应用的。本章的内容是整个论文的基础理论研究部分。基于支持向量机的高新技术项目风险评估模型研究项目风险评估的质量直接取决于项目风险评估指标体系的设定,以及项目风险评估方法的选择。目前一些高新技术项目风险评估指标体系,主要侧重于从财务、管理和市场等方面设定评估指标,普遍存在数据不易获取、人为主观性强的问题。高新技术项目类型及本文的研究项目类型按不同的分类方法,高新技术项目可被分为不同的类型。按照领域行业对知识产权保护的重视程度,本文将高技术项目可以分为两类:一类是保密领域的高新技术项目,如国防或航天技术项目,另一类是重视知识产权技术领域的高新技术项目,如信息通信领域的高新技术项目。高新技术项目风险构成要素高新技术项目风险因素很多,主要来源于环境、技术、市场、管理、资金等方面。根据本文研究的立足点——项目立项阶段,以及2.1节对高新技术项目风险因素的分类,把风险从两个大方面加以考虑:企业能力风险要素系统和项目风险要素系统。评价指标体系的构建高新技术项目开展的过程是十分复杂的,它包含多种因素,而且这些因素相互联系、相互作用,许多研究通常采用多因素的综合评价体系来进行项目风险的评价。构建指标体系的原则根据评价体系构建的一般理论与方法,本文用专利指标构建高新技术项目风险评估的指标体系,其基本原则是[131]:(1)系统性:即指标的选择要综合全面考虑相关因素的影响,较全面地反映评价对象的特征和属性;(2)客观性:能比较真实地反映评价对象的客观实际情况;评估指标的构建方法本文在参考大量文献研究成果的基础上,参考不同学者对项目风险属性的认识,从系统性的角度,结合高新技术项目自身的特点,并通过专家访谈和项目实地调研,提出了高新技术项目潜在风险因素的初步假设。根据上述方法,设定高新技术项目风险评估指标体系过程及结果如4.3.3节所示。高新技术项目风险评估指标体系构建(1)样本数据获取本文高新技术项目风险评估指标的设定是通过以访谈和测试验证为主的方式实现的。通过参考大量文献研究成果、多轮深度访谈、大量的案例测试最终确定指标的选取。本研究的调查对象选取了信息通信领域的高新技术企业及其承担的30个高新技术项目,项目列表如图4.1所示:7表错误!文档中没有指定样式的文字。-1高新技术项目实例截图通过大量调研,高新技术项目风险评估指标的设定流程如图4.2所示:图错误!文档中没有指定样式的文字。-7高新技术项目风险评估指标设定流程(2)高新技术项目风险评估指标体系设定本文根据风险因素的来源,从企业能力风险要素系统和项目风险要素系统两方面设定风险评估指标,并通过大量的调研、访谈及测试验证,设定并完善了高新技术项目风险评估指标体系。具体求解见3.3节。基于SVM的多类分类方法传统的支持向量机是针对两类分类问题的,而实际应用中经常是多类分类问题,故需对SVM进行推广。目前利用SVM处理多类分类问题是一个研究热点,当前存在的支持向量机多类分类方法可分以下几类:最小二乘支持向量机(LS-SVM)最小二乘支持向量机(LSSVM)是Suykens[80]提出的标准支持向量机的转换形式,它将支持向量机学习问题转化为线性方程组问题,因此具有较快的运算速度。最小二乘支持向量机构建方法如下:实证研究项目数据获取本文针对所选择的评估对象的特点,依托已完成的高新技术项目,选基于支持向量机的高新技术项目风险评估模型一般来说,项目风险评估问题可以归结为一个智能系统设计问题,即通过对已有的项目案例样本数据(即所谓的训练样本)的学习,模拟出评估系统的判别规律,并利用模拟出的规律来对未来待判的数据进行分类,如人工神经网络,但这类方法是样本趋于无穷大时的渐进理论,故要求样本数据有一定的规模。支持向量机进行高新技术项目风险评估的可行性高新技术项目由于自身特点造成项目风险因素复杂,评估指标