高考录取分数预测模型姓名:班级:姓名:班级:姓名:班级:1关于高考录取分数预测模型的探究摘要本文通过差分指数平滑法和自适应过滤法分别建立模型,根据历年学校录取线预测下一年的录取分数线。最后,根据预测出来的最佳数据,给2014年报考本校的考生做出合理的建议。对于问题一和问题二,首先根据题意和所给出的学校历年的录取分数线,不难分析出高校的录取分数线是由当年的题目难度、考生报考数量、“大年”和“小年”等因素决定的。每年的分数线还是有一定差距的,例如,本校2012在北京市电气专业的录取线是428分,而2013年是488分,相差60分。因此,预测的时候,需要通过一些方法使数据趋于平滑,使之便于预测。通过这些分析,建立了两种可靠的预测模型。模型一通过差分的方法,利用Matlab软件将后一年Yt与前一年Yt-1的数据相减得到一个差分值,构成一个新序列。将新序列的值与实际值依次迭加,作为下一期的预测值。以此类推,预测出2014年的录取分数线。模型二是根据一组给定的权数w对历年的数据进行加权平均计算一个预测值y,然后根据预测误差调整权数以减少误差,这样反复进行直至找到一组最佳权数,使误差减小到最低限度,再利用最佳权数进行加权平均预测。这两种方法很好的解决了历年录取分数相差较大难以预测的问题。预测值相对准确。预测结果数据量较大,在此以河北省为例,给出预测结果模型一:2014年本校电气专业录取线为495,模型二:2014年本校电气专业录取线为536。最后,通过预测出的数据,比对模型一和模型二,取最佳预测值,给报考科技学院的考生做出较为合理的建议。关键词:序列权数差分值加权平均高考录取线2一问题的重述对广大高考考生来说,填报志愿和高考一样都是人生中最重要的一步。那张薄薄的志愿表和高考分数一样,很大程度上影响到考生的未来和前途。填报志愿科学、合理,就能够被与自己考分相对应的理想高校录取;如果志愿选择不当,找不准与自己考分相对应的高校,即使考出高分,也可能与重点大学擦肩而过或高分低就,甚至落榜,留下终身的遗憾,这样的实例举不胜举,因此有人说,高考成功与否,60%靠实力,40%靠志愿。那么有没有一种行之有效的方法来准确预测高校的录取分数,从而根据自己的分数准确选择目标高校呢?1.请设计预测高校的录取分数的方法。2.结合科技学院近些年各专业在各省的录取分数线,预测一下科技学院2014年各专业在各省的录取分数线。3.给计划报考科技学院的考生一些建议。二问题的分析问题一是问题二的前提,通过设计好的预测方法,来预测科技学院2014年各专业在各省的录取分数线。最后结合总体的预测数据,来解决第三个问题。因此,设计准确的预测方法是解决问题的关键。首先,通过建立数学模型研究本校在各省的最低录取分数线,预测出本校2014年在各省的最低录取线。得出预测方法。然后导入科技学院前8年的在各省各专业的录取分数线,通过建立好的数学模型,运用得出的预测方法预测出本校2014年各专业在各省的录取分数线。最后通过模型一和模型二的预测结果,将前7年的预测值和实际值进行比较,可以得出最佳的预测值,以此为依据,给2014年将要报考本校的考生做出建议。三模型的假设1、为计算方便,将学校没有招生的省份和专业的数据设为空;2、历年考生数量和素质水平无较大波动;3、时间序列的变动大概呈现直线趋势;34、2008年四川地区录取线全部按非延考计算;5、数据不足,工商管理专业不在预测范围内。四符号说明Ytt年的信息存储矩阵▽ytyt与yt-1之差▽Ŷt+1Yt+1与Yt之差的预测值Ŷt+1第t+1年的预测值α加权系数wi第t-i+1期的观测值权数N权数个数n样本个数wi’调整后的第t-i+1期的观测值k学习常数et+1第t+1期的预测误差X0给定的值σ2总体方差Sy2总体方差的无偏估计量Xi第i年五模型的建立与求解5.1模型一的建立与求解注:华电科院各年录取分数线见附表5.1.1信息存储矩阵设计4设计高校录取分数线方法,建立差分指数平滑法数学模型。在预测之前,进行信息存储矩阵设计。下面是设计的矩阵Yt=专业省专业省专业省专业省专业省专业省专业省专业省专业省333222111zyxzyxzyx...其中t为年份,行指标为各省同一专业的录取线,列指标是同一省份各个专业的录取分数线。5.1.2差分指数平滑法差分指数平滑法模型是从数据变换的额角度考虑,即先对数据作处理,使之适用于一次指数平滑模型,之后再对输出的结果作处理,使之恢复为原变量的形态,利用以下的计算公式:ttttttttt1111ˆˆ)3(ˆ)1(ˆ)2()1(▽为差分符号,(1)式表示对序列作一阶差分,构成一个平稳的新序列,(3)表示把经过一阶差分后的新序列的指数平滑预测值与变量当前的实际值迭加,作为变量下一期的预测值。由于计算量较大,我们编写了Matlab程序来计算▽Ŷt、▽Ŷt+1、Ŷt+1。为近一步说明指数平滑的实质,把式(2)依次展开,有1210)1(])1()[1()4(ttttyYayyYjjt,(4)式表明Yt是全部历史数据的加权平均,加权系数分别为α,α(1−α),α(1−α)2显然有(5)1)1(1)1(0jj由于加权系数符合指数规律,又具有平滑数据功能,所以称为指数平滑。5.1.3加权系数的选择在进行指数平滑时,加权系数选择很重要,由式(4)和(5)可以看出,α的大小规定了在新预测值中新数据和原预测值所占的比重,α值越大,新数据所占的比重就愈大,原预测值所占的比重就愈小,反之亦然,若把式(4)改写为5(6))(1ttttyyyy则从上式可以看出,新预测值是根据预测误差对原预测值进行修正而得到的。α的大小则体现了修正的幅度,α值愈大,修正值幅度愈大,α值愈小,修正幅度也愈小。若选取α=0,则ttyy1,即下期预测值就等于本期预测值,在预测过程中不考虑任何新信息;若选取α=1,ttyy1,即下期预测值就等于本期实际值,完全不相信过去的信息。这种极端情况很难做出正确的预测。因此,α值应根据时间序列的具体性质在0~1之间选择。在本文中α=0.5。初始值本文选择2007年数据的实际值。下面是利用模型一所得出的2008年到2013年的预测值和实际值的对比图图一通过图一可以看出,凡是历年各专业均有招生的地区,预测的结果较为全面而且准确。例如河北省、山西省等地。而某些年份没有录取的地区,或者只有少数专业录取的地区,预测的结果准确性稍有下降,有的甚至没有预测结果。例如内蒙古、西藏等地。5.2模型二的建立与求解5.2.1自适应过滤法的基本过程自适应过滤法与移动平均法、指数平滑法一样,也是以时间序列的历史观测值进行某种加权平均来预测的,它要寻找一组“最佳”的权数,其办法是先用一组给定的权数来计算一个预测值,然后计算预测误差,再根据预测误差调整权数以减少误差。这样反复进行,直至找出一组“最佳”权数,使误差减少到最低限度。由于这种调整权数的过程与通讯工程中的传输噪声过滤过程极为接近,故称为自适应过滤法。自适应过滤法的基本公式NiitiNtNtttywywywywy1111211)7(式(7)中,1ty为第t+1期的预测值,wi为第t-i+1期的观测值权数,yt-i+1为t-i+1622311w2期的观测值,N为权数的个数。其调整权数的公式为11'2)8(itiiiykeww式(8)中,i=1,2,N,t=N,N+1,n,n为序列数据个数,wi为调整前的第i个权数,wi’为调整后的第i个权数,k为学习常数,ei+1为第t+1期的预测误差。式(8)表明:调整后的一组权数应等于旧的一组权数加上误差调整项,这个调整项包括预测误差、院观测值和学习常数等三个因素。学习常数k的大小决定权数调整的速度。下面举一个简单的例子来说明此法的全过程。设有一个时间序列包括10个观测值,如表9所示。试用自适应滤波法,以两个权数来求第11期的预测值。表一某时间序列表时期t12345678910观测值yt0.10.20.30.40.50.60.70.80.91.0本例中N=2。取初始权数w1=0.5,w2=0.5,并设k=0.9。t的取值由N=2开始,当t=2时:(1)按预测公式(7),求第t+1=3期的预测值。yˆt+1=yˆ3=w1y2+w2y1=0.15(2)计算预测误差。et+1=e3=y3−yˆ3=0.3−0.15=0.15(3)根据式(8),w1=w1+2ke3y2=0.554w'=w+2key=0.527(1)~(3)结束,即完成了一次权数调整,然后t进1再重复以前步骤。当t=3时:(1)利用所得到的权数,计算第t+1=4期的预测值。方法是,舍去最的一个观测值y1,增加一个新的观测值y3。即''yˆt+1=yˆ4=w1y3+w2y2=0.2716(2)计算预测误差et+1=e4=y4−yˆ4=0.13(3)调整权数w'=0.554+2×0.9×0.13×0.3=0.624'=0.527+2×0.9×0.13×0.2=0.564这样进行到t=10时''yˆt+1=yˆ11=w1y10+w2y9但由于没有t=11的观测值y11,因此et+1=e11=y11−11y无法计算。这时,第一轮的调整就此结束。把现有的新权数作为初始权数,重新开始t=2的过程。这样反复进行下去,到预测误差(指新一轮的预测总误差)没有明显改进时,就认为获得了一个“最佳”权数,能实际用来预测第11期的数值。在实际应用中,权数调整计算工作量可能很大,必须借助于计算机才能实现。7下面试通过模型二预测出的结果,由于预测数据量大,在此给出几组有代表性的地区的预测结果。其他预测结果附件中给出。(1)河北省由于本校在河北省历年均有招生,而且每年的分数线相差不大,所以得出的结果相对准确。图一是模型二预测出2011年到2014年的预测结果的比较。图一(2)北京市由于北京市每年的录取分数线相差较大,所以预测结果的准确性有所降低。图二是模型二预测出2011年到2014年的预测结果的比较。(3)内蒙古由于本校在内蒙古2012年没有招生,导致数据不足,无法预测结果,测值仅有一年。图二85.3模型三的建立与求解5.3.1均差法的具体过程高校历年录取线与省控线有具体分差,通过计算历年的分差平均值,可以得出预测年份的录取线和提前给出的省控线的具体分差。根据得出的分差,考生可以在报考志愿的时候,得出自己想要的结果。5.3.2具体公式(9)Y=yl-yk给出具体计算结果和建议:河北省2012年省控二本线509,华电科院最低录取线514,根据式(9)得出分差为5。河北省报考本校考生分数线需超过本二线5分到10分。除西藏、青海、宁夏、等教育水平不高的地区,其他省份的考生在报考电气专业和热动专业的分数需超出当地二本线10到20分。本校电气专业和热动专业为热门专业,如果考生分数较低,但是想报考以上专业,可以采取先报其他要求较低专业,保证被学校录取后,在大二转专业到电气和热动。六模型的评价与推广填报志愿对于考生来说尤为重要,本文所建立的模型和得出的方法,对考生预测学校各专业的录取线有很大的参考价值和帮助。本文所建立的两个模型,模型一可以将所给起始数据年份的下一年预测出来。模型二由于运用自适应过滤法,N取4,所以,只能预测出2014年以及前3年的结果。在预测录取分数线的时候,两种模型综合运用,可以得出最佳的预测值。在广大考生和家长一起报考学校的时候,本文的方法行之有效。所以可将建立的模型进行推广。模型的优点:(1)本文建立的数学模型对于学校每年均招生的省份和地区,可以很好的预测出下一年的录取分数线,预测误差均保持在30分以内。(2)模型一操作简单,只需将目标学校历年的专业录取线导入,即可预测出结。(3)模型二预测的结果平稳准确。模型的待改进之处:(1)本文建立的模型在缺少数据的省份和地区,无法预测出结果。(2)模型二只能预测出预测年以及前三的结