癌症识别模型癌症识别模型【摘要】当今,癌症成为了影响人类健康的一大疾病,由科学结果得知,产生这一病症的源头为基因。所以基于癌症病患及正常在基因表达上的区别,我们采用了两种方法进行预测。第一种方法中,我们构建了神经网络模型,采用多层前向神经网络,通过MATLAB,对输入层即20个癌症和20个正常样本,及输出层向量(1,0)(癌症病患)和(0,1)(正常)做数据处理,求出各个基因的权重,则可得到一个关于基因为自变量的方程。将待测的20个样本基因分别代入该方程中,求出结果,来达到预测效果。第二种方法里,我们建立多元统计模型,对所给出的20个癌症及20个正常样本的114个基因做处理,利用spss软件的逐步判别筛选,找到出41个基因为与之相关系数最大的基因,并显示非标准化判别方程系数,从而得到判别方程D。之后,将待测样本的其中的41个基因数值代入判别方程中,当D大于0时,为正常者;当D小于0时,为癌症患者。由该模型只要知道某人的基因表达水平,就可以判断该人是否为癌症病患,即达到预测的目的。【关键字】神经网络多层前向神经网络多元统计spss软件逐步判别筛选基因非标准化判别一、问题重述题目给出了一个114个基因,60个人的基因表达水平的样本.其中前20个是癌症病人的基因表达水平的样本(其中还可能有子类),其后的是20个正常人的基因表达信息样本,其余的20个是待检测的样本(未知它们是否正常).(所有数据请见(作业,txt))(1).试设法找出描述癌症与正常样本在基因表达水平上的区别,建立数学模型,及识别方法,去预测待检测样本是癌症还是正常样本.(2).设计图示(可视化)方法,使得在你的数学模型下,尽量清楚地表现癌症与正常样本在基因表达水平上的区别,以及癌症样本中是否有子类.二、问题的分析实际生活中,癌症已成为一大难以治愈的病症,许多人因没有早期发现而失去了治疗的机会。本题针对基因进行处理,并得出相应以基因为自变量的方程。那么,若判断某人是不是癌症患者,只要将其基因代入方程中,判断结果的大小,就可以知道这个人是不是病患,则达到预测的目的。我们建立了两个模型进行预测,首先采用神经网络模型的多层前向神经网络,利用MATLAB软件,对输入层即20个癌症和20个正常样本,及输出层向量(1,0)(即癌症病患)和(0,1)(即正常)做数据处理,求出各个基因的权重,之后可得到一个关于基因为自变量的方程。将待测的20个样本的114个基因分别代入该方程中,求出结果。观察所得结果更趋近(1,0)和(0,1)中的哪个向量,则可判断该样本是否为癌症病患。另一种方法是建立了多元统计的模型,将两个变量,即癌症病患和正常者分别设为1及0。其114个基因设为输入层。首先针对这20个癌症及20个正常样本的114个基因进行处理,利用统计软件spss,对这114个基因进行判别筛选,最终得到41个与之相关系数最大的基因,这些基因就成为了判断一个人是否为病者的重要因素。通过这个软件,还可以得到这41个基因的非标准化判别方程系数,从而得出非标准化方程D。然后,对于题目给出的20个待测样本,我们将其对应的41个基因表达水平代入到此方程中。若D大于0,则该样本为癌症病者;若D小于0,则该样本为正常者。三、符号说明(1)模型一中,设114个基因标号为1~114,设癌症病者和正常者为变量y1和y2;(2)模型二中,设114个基因标号为2~115,设癌症病者和正常者为变量y1和y2;(3)x1为40*114的矩阵,元素组成是20个癌症与20个正常样本的114个基因;(4)x2为20*114的矩阵,元素组成是20个待测样本的基因四、条件假设(1)除了这114个基因之外,没有其他基因影响癌症的可能(2)这114个基因,不会自己发生基因突变,变异成这114种中或之外的其他基因(3)不考虑环境、生活习惯、饮食卫生等方面,只认为癌症患病由基因决定五、模型建立与解答(1)模型一的建立与解答我们采用神经网络中的多层前向神经网络的模型,首先提取20个癌症和20个正常的样本基因,作为该神经网络的输入层,并将其基因编号为1~114,有这40个样本,形成一个40*114的x1矩阵(输入层)和2*40的y矩阵(输出层),利用MATLAB,编译程序如下:loaddata.txtdata(:,1)=[];x=data';y=zeros(2,40);y(1,1:20)=1;y(2,21:40)=1;x1=x(:,1:40);fori=1:114maxMin(i,1)=min(x(i,:));maxMin(i,2)=max(x(i,:));endnet.trainParam.epochs=2500;net=newff(maxMin,[2,2],{'logsig','logsig'});net=train(net,x1,y);x2=x(:,41:60);y1=sim(net,x2)x2就是待测的20个样本,该程序运行之后的结果为TRAINLM,Epoch0/100,MSE0.368956/0,Gradient2423.12/1e-010TRAINLM,Epoch25/100,MSE0.282631/0,Gradient0.252094/1e-010TRAINLM,Epoch50/100,MSE0.14151/0,Gradient0.587697/1e-010TRAINLM,Epoch75/100,MSE0.129632/0,Gradient0.000115289/1e-010TRAINLM,Epoch100/100,MSE0.129631/0,Gradient5.1675e-005/1e-010TRAINLM,Maximumepochreached,performancegoalwasnotmet.所以可以得到各项系数为:y1:-0.193550.799380.69811.521.71430.8795-2.4358-0.99814-0.396360.0027456-0.113911.68530.10977-3.5863-0.203876.59181.41190.67271-1.55930.341483.104-3.20321.5168-3.44412.16970.294262.1022-1.5587-0.31396-0.87158-0.207812.8854-1.5818-2.70243.94881.2043-0.29859-0.29879-0.29872-0.29865-2.4052-1.23181.0325-0.600930.8237-2.3083-2.1644-2.78060.0313930.6569-5.2137-0.47807-0.86167-3.0126-1.608-0.95698-3.5729-3.5742-1.89191.4257-2.8693-0.631770.833990.94730.374063.21224.8979-1.00992.04471.2425-4.6062-0.227722.4722-0.499570.671453.35972.37341.48382.77370.201480.97617-0.035918-1.66145.4112-1.0614-1.4312-1.40736.2082-1.18431.3004-0.3861-0.641612.13121.58170.96-2.7190.15221.80871.5713-3.21441.09483.1704-0.1736.6967-2.3553-0.0772772.49073.38260.437624.2023-0.83358-3.3793-0.825140.26482y21.3557-0.60693-0.78051-0.238812.35471.0396-2.1020.79987-0.14102-0.22786-1.26662.72930.097503-2.3058-0.51886-2.02780.448170.621341.3685-0.696031.16070.311312.10321.12673.1795.10983.7587-5.3835-0.501-0.889711.7531-1.48640.45029-0.610651.0241.1561-1.4601-1.46-1.4601-1.460.90876-0.36563-1.26982.6022-0.322672.70972.96130.391591.17320.614430.14973-0.712821.843-1.21031.456-0.752870.2513-0.59684-2.5621.76830.954370.0946583.4234-0.55026-0.25394-4.4808-1.43650.232023.90831.3009-2.0529-0.240282.69685.4074-0.947763.0319-0.765242.9059-2.13060.627641.059-2.3865-0.729091.460.50727-2.54230.43992-1.09263.3931-1.77132.0839-2.7972.26332.10262.54382.78821.11064.0411-0.15823-0.167150.45606-0.00354520.718321.4477-2.18560.378241.73921.14150.673940.4899-1.2708-2.31770.556820.96693求出各个基因的权重,之后可得到一个关于基因为自变量的方程。将待测的20个样本的114个基因分别代入该方程中,求出结果。则其结果为:y1:0.30.30.680.30.30.30.30.30.680.30.30.680.30.680.30.680.39.061e-0069.061e-0061.8274e-006y2:0.70.70.320.70.70.70.70.70.320.70.70.320.70.320.70.320.70.999990.999991所以样本3、9、12、14、16、18、19、20是癌症病患;其他样本是正常者(2)模型二的建立及解答我们建立了多元统计的模型,将两个变量,即癌症病患和正常者分别设为1及0。其114个基因设为输入层,且这114个基因标号为v2~v115。首先针对这20个癌症及20个正常样本的114个基因进行处理,利用统计软件spss,对这114个基因进行判别筛选,最终得到26个与之相关系数最大的基因,这些基因就成为了判断一个人是否为病者的重要因素。通过这个软件,还可以得到这41个基因的非标准化判别方程系数,从而得出非标准化方程D。将题目所给的数据录入到该软件中,所得到的结果为:CanonicalDiscriminantFunctionCoefficientsFunction1V2.530V6.101V9.144V19.179V21-.304V26.112V28.018V37.350V43-.237V61-.054V62-.085V73.583V75-.029V76-.442V79.061V80-.108V83-.021V90.018V96.259V97.020V101-.319V103.073V106-.122V108.048V109.015V113-.100(Constant)-137.013Unstandardizedcoefficients这个显示出与癌症相关的基因大致只有这26个,且表中右侧为各项系数,则可得非标准化判别方程为D=0.530v2+0.101v6+0.144v9+0.179v19-0.304v21+0.112v26+0.18v28+0.350v37-0.234v43-0.054v61-0,085v62+0.583v73-0,029v75-0.442v76+0.061v79-0.108v80-0.021v83+0.081v90+0.259v96+0.020v97-0.319v101+0.073v103-0.