基于新药药效的预测模型

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数学建模竞赛承诺书我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B中选择一项填写):我们的队号为:参赛队员:1.2.3.指导教师或指导教师组负责人:数模组日期:2009年8月14日评阅编号(由评阅老师评阅前进行编号):数学建模竞赛编号专用页评阅编号:评阅记录:评阅人评分备注1基于新药药效的预测模型摘要本文主要讨论了新药临床实验的数据分析问题,根据公司在新药上的实验数据表,建立了统计回归模型和神经网络模型,并对题目给出的四个人服了这种药剂后疼痛减轻时间进行了预测。我们建立了统计回归模型,在回归方程的确定过程中,从多元的线性回归模型推导至可化为线性的非线性回归模型,然后运用EView5.0分别对两个线性回归方程进行了检验,模型在置信概率为95%的条件下通过检验,并画出相应模型的的残差图,以便于模型的最优化选择。同时我们还构造两个可线性化非线性模型,用matlab7.0对这两个回归方程进行了检验,同样在置信概率为95%的条件下通过检验。然后进行逐步回归分析,计算出各项的系数。最后通过分析及剔除变量法,并运用Excel2003对可化为线性的非线性回归方程的显著性检验,结合两个线性回归方程,最终得到一个比较合理的非线性回归模型。运用该模型得到的预测结果分别为11.3631,15.6312,28.3152,39.9367分钟。BP神经网络模型通过建立BP神经网络,让其依照试验结果记录中疼痛减轻时间,用药剂量,性别与血压的数据进行自我训练,得到一个误差小的关系式,最后利用这个关系式来对另外四个人服用止痛药后疼痛减轻时间进行预测。并得到以下结果:四个服用止痛药的人疼痛明显减轻的时间为11.2875,16.1335,29.3262,41.0284分钟。最后,我们对上述模型进行分析评价,提出了一些可能的改进方向。关键字:统计回归线性方程非线性方程神经网络残差检验2一、问题的重述与分析1.1问题的重述1、某公司研制了一种止痛的新药,通过临床试验来确定它的疗效。在临床试验过程中,用4种剂量来试验,剂量分别是2g,5g,7g,10g,分别记录每个病人用药后病痛明显减轻所需的时间(以分钟计)。为了了解新药的疗效与病人性别和血压之间的关系,试验过程中研究人员把病人按性别及血压的高(0.8)、中(0.55)、低(0.3)三档来进行测试。试验结束后,公司的记录结果见附件(性别1表示女,0表示男)。附件中给出了相关的数据,需要建立合适的数学模型来分析病痛减轻的时间与用药剂量、性别和血压的关系。2、通过问题一对病痛减轻的时间与用药剂量、性别和血压的关系的分析,进一步对于下面不同人服药的数据,预测出病痛明显减轻的时间。1.2问题的分析问题一:为了了解新药的疗效与用药剂量、病人性别和血压之间的关系,我们用病痛减轻的时间长短来评估药效,即我们可以这样认为:疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。而病痛减轻时间与用药剂量、病人性别和血压的关系是无法事先确定的,需要通过对样本数据的拟合,建立回归模型后加以分析。问题二:为了预测出不同性别,有不同血压的病人用不同剂量的止痛药,病痛明显减用药剂量(g)性别血压1010.8700.4400.25310.63轻的时间的多少,需要研究病痛减轻的时间与用药剂量、性别和血压的关系。借助于MATLAB软件,构建一个输入用药剂量,性别与血压组别,输出疼痛减轻时间的神经网络可以达到目的。二、模型的基本假设假设1:疼痛减轻的时间长短可以代表用药效果。即疼痛减轻时间长则表示药效相对不好,而疼痛减轻时间短则表示药效相对较好。假设2:疼痛减轻时间只与题目所给的用药剂量、性别、血压有关,其他外在条件对其不存在影响。假设3:假设男性以0来计算,女性以1来计算,以便于问题研究。三、符号说明p学习周期动量系数kE第k个样本预测值与真实值间的误差,,...2,1keE总误差t期望值ijWBP神经网络权值i、j正整数j神经元的等效误差y疼痛减轻的时间41x用药剂量2x性别3x血压num用药剂量数据的1×24矩阵sex性别数据的1×24矩阵press血压数据的1×24矩阵time疼痛减轻时间数据的1×24矩阵data所有输入数据的3×24矩阵input所有用于预测的输入数据的3×4矩阵out预测结果ib回归系数,ki,,2,1显著水平四、模型的建立与求解4.1模型一:统计回归模型我们记药效减轻的时间为y,病人的用药剂量记为1x,性别记为2x,血压记为3x。基于以上分析并结合题目给出的24组数据,我们建立预测模型——统计回归模型。4.1.1(建立多元线性回归模型)5(1)建立包含用药剂量、性别、血压的三元线性回归模型:我们运用EView5.0软件进行求解:在命令窗口依次键入以下命令即可:CREATEU24DATAYX1X2X3输入数据后键入命令:LSYCX1X2X3即得如下结果(图表一):图表一新药药效的估计结果因此病痛减轻的时间与用药剂量、性别和血压的关系函数为:3215000.16667.51373.4149.49xxxy]1[t=(8.4807)(-7.6460)(1.7960)(-0.1940)(模型1)7553.02R7186.02R575.20F模型的求解结果表明,用药剂量对疼痛减轻时间的边际效益为(-4.1373),由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为5.6667,血压对疼痛减轻时间的边际效益为(-1.5000)。7553.02R,说明模型的拟合度不错。6模型1的显著性检验:1、F检验:对于多元线性回归模型:iikkiiixbxbxbby22110假设0H:021kbbb若假设成立,则意味着:iiay表明y的变化主要由模型之外的变量来决定,模型的线性关系不显著,所设定的模型没有意义。在原假设0H成立的情况下,可以证明:)1,(~)1(22knkFknikiFeyy]2[所以,对于给定的显著水平,可由F分布表查得临界值F,如果根据样本数据计算得出:FF则拒绝原假设0H,即回归系数kbbb,,,21中至少有一个显著地不为0;此时可以认为模型的线性关系式显著的。反之,则接受0H,认为模型的线性关系不显著。结合该模型数据(图表一),在置信概率为95%的条件下,由F分布表查得临界值10.3F,而实际模型中的F=20.575,即FF说明F检验也是高度显著的,说明用药剂量、性别和血压对疼痛减轻时间的总影响是显著的。72、解释变量的显著性检验(t检验):如果模型通过了F检验,则表明模型中所有解释变量的“总影响是显著的,但这并不同时意味着模型中的每一个解释变量对y都有重要的影响,或者说并不是每个解释变量的单独影响都是显著的。因此,有必要对模型中每个解释变量(影响)的显著性进行检验,检验过程仍然采用假设检验方法。对于多元线性回归模型:iikkiiixbxbxbby22110假设0H:021kbbb即假设ix对y没有显著影响。对于t统计量我们有:)1(~)(kntbSbbtiii]2[因此,对于给定的显著水平,可以由t分布表查得临界2t,若2||tt,则表明原假设0H是一个错误假设,应该拒绝,即认为系数ib显著的不等于0,ix对y有显著的影响:反之,则认为影响不显著,应该考虑ix从模型中剔除而重新建立模型。结合该模型数据(图表一),在置信概率95%的条件下,由t分布表查得临界值086.2205.0t,而实际模型中解释变量32,xx的t统计值都要小于205.0t,所以不能通过检验。因此,需要对以上三元线性回归模型做适当的调整,按照统计检验程序,一般应先剔除t统计量最小的变量(即血压变量)而重新建立模型。]3[(2)建立剔除血压变量的二元线性回归模型:我们运用EView5.0软件进行求解:在命令窗口依次键入以下命令即可:CREATEU24DATAYX1X2输入数据后键入命令:LSYCX1X28即得如下结果(图表二)图表二剔除时间变量后的估计结果因此病痛减轻的时间与用药剂量和性别的关系函数为:216667.51373.4323.48xxyt=(12.558)(-7.827)(1.839)(模型2)7548.02R7315.02R325.32F模型的求解结果表明,用药剂量的对疼痛减轻时间的边际效益为(-4.1373),由于性别只存在0和1的取值,所以男性和女性的不同对因变量的影响值为5.6667,表明在这种情况下性别对疼痛时间的影响较为明显。模型2的显著性检验:1、F检验:用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论:在置信概率为95%的条件下,由F分布表查得临界值47.3F,而实际模型中的F=32.325,即FF说明F检验也是高度显著的,说明用药剂量和性别对疼痛减轻时间的总影响是显著的。2、解释变量的显著性检验(t检验):9用模型显著性检验的方法,结合图表二的数据,我们可以得到这样的结论:在置信概率90%的条件下,由t分布表查得临界值721.105.0t,而实际模型中解释变量21,xx的t统计值都要大于205.0t,所以能通过检验。模型2的拟合度相较模型1并没有多大变化,F检验也是高度显著的。这里,解释变量、常数项的t检验值都相对比较大,都可以在置信概率90%以上通过检验,因此模型2较模型1更为合理。4.1.2(建立多元非线性回归模型)模型的准备:由附件中给出的数据,我们可以看出,同列相同值但是对应的疼痛时间值是不同的,这说明疼痛时间y的确定与用药剂量1x、性别2x和血压3x这三个因变量有关的。于是我们用matlab7.0软件来分析Y与这三个变量之间的关系,分别求出不同的变量对应的合适值,以用药剂量与病痛减轻时间的关系为例(程序见附录一),用药剂量为T10752时,病痛减轻的时间为T6176.133627.186373.267157.46。然后我们通过MATLAB7.0软件分别画出对应图像(图表三):10图表三疼痛减轻时间分别与三个变量之间的关系图其中红色曲线代表y与用药剂量1x之间的关系,绿色曲线代表y与性别2x之间的关系,蓝色曲线代表y与血压3x之间的关系。从上面的图,我们发现:因变量y与三个自变量1x、2x、3x之间存在着复杂的非线性关系,于是对模型1中的线性回归模型进行修改,并逐步加以分析。(三)建立可线性化的三元非线性回归模型:我们估计疼痛减轻时间y与321,,xxx之间是一个非常复杂的关系,这是一个多元的关系,于是我们建立了如下多元非线性统计模型:31621513433221110xxxxxxxxy这是一个可线性化模型。令317216135114,,,xxxxxxxxxx即得:7665543322410xxxxxxy11又令T6543210我们用MATLAB7.0软件进行统计量pFR,,2的检验(程序见附录2),运行结果如下(图表四):图表四统计量的检验结果这个检验结果显示,9212.02R指因变量y(病痛减轻时间)的92.12%可由模型确定,在置信概率95%的条件下,由F分布表查得临界值70.2)17,6(05.0F,而本模型的12.33F超过临界值,并且0000.0p小于0.05,可以通过显著性检验。根据2R检验与F检验的关系,即2211RRnknF(1)其中n为样本数据

1 / 27
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功