1高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写):我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.李俊良2.吴晓凡3.苏顺贞指导教师或指导教师组负责人(打印并签名):李真日期:年月日赛区评阅编号(由赛区组委会评阅前进行编号):2地区创新评价摘要本文围绕地区创新评价问题,建立了主成分分析模型,时序全局主成分分析法模型,利用spss实现了从纵向的时间维度及横向的空间维度两方面对不同时间不同地区的创新能力进行量化评价。对于问题一和二,用主成分分析法进行求解。首先提取数据异数值进行处理,然后根据区域创新能力评价体系,确立一级指标和二级指标,选取相关指标,对逆向指标正向化处理,并且对所有指标数据标准化处理,然后利用spss对所有数据降维处理,得出各年地区创新能力分类排名和综合排名。对于问题三,建立时序立体数据表,对多维动态数据系统给出时序全局主成分分析模型及较为详细的计算步骤。首先对逆向指标正向化,并用spss对所有指标标准化。进行因子分析通过KMO和Bartlett检验,筛选出6个因子,得到成分得分系数矩阵,求出总得分,可在时间空间上动态描述区域经济差异。对于问题四,可通过模型一的主成分分析法求解,根据区域创新能力评价体系寻找北京、上海、广州、深圳、天津、青岛、杭州等7个城市的数据,通过spss降维处理得出各个城市创新能力分数并排序,相对排名和福布斯中国大陆创新能力城市排行中的排名做相关性检验。考虑到要实现总体性、多层次的评价目标,本文根据创新能力评价体系对不同城市不同指标做出了得分求解和排名,实现了从时空上多层次地对城市创新能力进行多指标综合评价。关键词:主成分分析法spss时序全局主成分分析法时序分析相关性检验3Ⅰ问题重述21世纪以来,随着以提供知识和信息为主的服务经济逐渐取代工业经济,建立创新型城市成为了一个国家或地区的发展战略之一。创新是城市发展最直接有效的途经,凭借其创造性、整合性和开放性,有利于提高城市竞争力,最终实现经济可持续发展的目标。虽然反映综合实力的地区创新能力问题一直是讨论的热点,但同时从时间以及空间两方面客观评价地区的创新能力一直没有达成共识。附件给出了某3年我国20个地区与创新能力评价有关的指标,根据这些指标或者指标之间的相互关系,请自行科学地挑选或者构造有用的评价指标,通过数学模型,建立一个创新能力评价体系,讨论以下问题:1.模型(或评价体系)要求实现总体性、多层次的评价目标。2.根据建立的模型,分别对各年进行20个地区间的创新能力排序。3.改进问题1和问题2中建立的模型,从纵向的时间维度以及横向的空间维度两方面同时对20个地区3年的创新能力进行比较分析。也即要求改进的模型能够进行同一年份的地区间比较,同一地区不同年份的自身比较,以及不同年份、不同地区间的相互比较。4.以北京、上海、广州、深圳、天津、青岛、杭州6个城市为例,寻找相应的数据指标,评价模型的科学性以及实用性。Ⅱ问题分析总体性,多层次反映一个地区创新能力是我们要解决的核心问题。针对此问题,在对异常数据进行处理和所有数据标准化后,用主层分分析法对同一年份不同地区进行比较,通过降维得到主成分累计贡献率达80%以上的主成分量化代表多个指标,并通过做出可以分析三个年份的模型,从而建立评价体系,对20各地区进行分析,得出总分,进行排名。对于问题三,要求改进模型一,实现从纵向的时间维度以及横向的空间维度两方面同时对不同地区三年间的创新能力进行比较分析,针对此问题,将数据变换为时序立体数据表,利用时序主成分分析法对所有数据进行因子分析,其中KMO值大于0.7,适合做因子分析,经过15次旋转收敛后得到代表性更强的公共因子和特殊因子以代表整体指标,从而建立评价体系,得到不同地区不同年份的创新能力评分,并对已分类的一级指标得分进行计算比较,实现多层次总体性评价地区的创新能力。对于问题四,在寻找各类二级指标的数据后进行模型一的主成分分析,算出在模型一下的得分及排名,并与其真实排名进行相关性检验以求证模型的科学性及实用性。Ⅲ模型假设1、地区创新能力主要受所给指标以及处理过后指标的影响,其他因素影响不大2、所有数据均是真实可靠的43、2011年美元兑人民币为1:6.3125Ⅳ符号说明ijx第i个样本第j个指标R相关系数矩阵i特征值特征向量ka方差贡献率ijF第i个样本第j个主成分Ⅴ建模前的准备为了后面建模与程序设计的方便,在建立此模型前,我们有必要做一些准备工作。5.1数据预处理在对附件中的数据进行观察时,发现有些数据异常和缺失:(1)第1年“新产品出口”中地区19和20的数据缺失(2)在“科技机构中基础研究支出占R&D支出比例”和“科技机构R&D支出中企业资金比例”指标的数据为“0”的比重3年平均达83.3%和85%。为了减少缺失与异常数据对结果的影响,做了如下处理:(1)取第2年“新产品出口”中地区19和20的数据为中间值进行处理,但所得结果地区20为负数,改用与“出口总额”等比例计算。(2)删除“科技机构中基础研究支出占R&D支出比例”和“科技机构R&D支出中企业资金比例”指标5.2指标构造和筛选根据国家统计局资料[1]对区域创新能力的相关指标进行处理,如舍弃、加总、取比重等,以及分类。分为创新环境、创新投入、创新产出、创新成效4类一级指标和21个二级指标,如表1:5Ⅵ模型的建立与求解6.1模型一的建立该模型针对问题一,二,仅考虑同一年份不同地区的创新能力评分。主成分分析的基本思想是将原来的相关性指标利用降维技术重新组合成一组新的互相无关的综合指标来代替原指标,并且这些根据实际选取的综合指标能够尽可能多的反映原指标的信息。由于选取构建的二级指标较多,而且存在相关性,所以本文根据选这些指标,运用主成分分析法,得出对同一年份地区各自关于4类一级指标的综合分数和总指标的综合分数,对地区的创新能力进行分层次和总体评价。步骤如下:6.1.1逆向指标的正向化在多指标综合评价中,指标的趋势与量纲会影响到结果的准确性,所以必须对所有指标的同趋势化和无量纲化。在21个指标中,“单位GDP能耗”和“单位工业增加值能耗”为逆向指标,取其倒数进行正向化,即总指标一级指标表1就业率单位工业增加值能耗发明专利授权数占专利授权数的比重每名R&D人员专利授权数新产品销售收入占主营业务收入的比重高技术产品出口额占货物出口额的比重全员劳动生产率单位GDP能耗创新环境创新投入创新产出创新成效区域创新能力著名商标数量每万人在校大学生数实际人均GDP国际互联网用户数每百人公共图书馆藏书产学研基地(累计)科技拨款占财政拨款的比重信息传输、计算机服务和软件业人员R&D经费占主营业务收入比重工业企业R&D经费支出所占比重人二级指标R&D活动人员科技机构课题经费中R&D课题经费比例新产品产值个万元%%人%万人单位元户件、册个%吨标准煤/万元吨标准煤/万元%%%%个、件%61ijijxx6.1.2指标标准化处理,1,2,...,n;1,2,...ijjijjxxxijs其中,21111,()1nnjijjijiixxsxxnn6.1.3主成分分析标准化数据的相关系数矩阵:=(r)ijppR其中111nijkjkjkrxxn相关矩阵的特征根和特征向量,令0pRI求得特征根i特征根贡献率1ikpiia累计贡献率111mimikpkiia令0iPRI,求得相应的特征向量并确定主成分个数,通常用1作为纳入标准,或者使得累计贡献率达80%或85%以上。当1时,说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大,而180%mkka,说明前m个主成分包含原始数据的信息总量已达80%,用这m个主成分代表原来的p个指标评价有足够的把握。计算每个样本的主成分得分,第i个样本在第j个主成分上的得分为:12,,,...,,1,2,...,,j1,2,...mijjiiiiipFxxxxxin单个主成分的总得分为所有样本的加总。以主成分的贡献率ka为权重,构造综合得分函数:1122.......mmFaFaFaF,其中4类一级指标各自的得分可由各自样本的m个主成分得分求得。76.1.4根据所得结果对地区创新能力进行分指标排名和综合排名6.2模型一的求解运用Excel对附件进行数据处理和指标筛选与构建后,取倒数将“单位GDP能耗”和“单位工业增加值能耗”两个逆向指标正向化。运用SPSS软件对分别对3年数据进行降维处理,得到表2-1,表2-2,表2-3(表2-2,表2-3见附录)的关于每个主成分的特征值以及方差贡献率:合计方差的%累积%合计方差的%累积%19.72146.29246.2929.72146.29246.29222.13410.16256.4542.13410.16256.45431.9769.41165.8651.9769.41165.86541.6567.88473.751.6567.88473.7551.5827.53581.2841.5827.53581.28461.2656.02287.3071.2656.02287.30770.7233.44590.75280.5812.76993.5290.4392.09195.611100.2881.37196.982110.2060.98297.964120.1610.76798.731130.1020.48799.218140.0790.37499.591150.0550.26199.852160.0170.08299.934170.0110.05399.987180.0020.01199.9981900.002100201.00E-131.01E-1310021-1.00E-13-1.00E-13100初始特征值提取平方和载入表2-1第1年解释的总方差表成份由表2-1分析可知,第一、第二、第三,第四,第五,第六个主成分累计贡献率已高于85%,前6个因子可以反映第一年原始数据的大部分信息。提取前6个因子作为公共因子,进一步通过计算得到6个主成分的特征向量。从表2-2,2-3分析可知,前五个主成分累计贡献率已大于80%,前5个因子可以反映第二年,第三年的大部分信息,因此提前前5个因子作为公共因子。按特征值大于1作为纳入标准,对于第1年前6个特征值大于1的主成分,第2年和第3年前5个主成分,其累计贡献分别已达87.303%、82.403%和81.758%,提取的这些主成分能够反映原指标的绝大部分信息。通过SPSS得到主成分的载荷向量后除以特征值即得每个主成分特征向量,得表2-4,2-5,2-6(表2-5,2-6见附录)显示的各标准化指标的系数矩阵。8F1F2F3F4F5F6X10.189-0.3340.0510.1990.2560.046X20.301-0.0360.0810.0620.1110.195X30.295-0.073-0.1860.0010.043-0.059X40.2800.041-0.026-0.255-0.169-0.130X50.2590.002-0.043-0.0900.2500.146X6-0.1010.320-0.1240.409-0.1650.383X70.277-0.071-0.2670.099-0.022-0.129X80.269-0.0740.093-