基于PLS的青藏铁路格拉段职工健康环境影响因素研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

-1-基于PLS的青藏铁路格拉段职工健康环境影响因素研究*施庆生,陈建丽,李金凤(南京工业大学应用数学系,江苏南京210009)摘要:青藏铁路格拉段平均海拔4500米,沿线高寒、低氧、气压低、干燥、强辐射。本文采用格拉段沿线10个领工区的环境测试指标及相应工作人员生理指标数据,应用偏最小二乘(PLS)回归方法进行统计分析,探寻格拉段工作人员生理指标(脉搏、收缩压、舒张压、血氧饱和度)的重要环境影响因素,进行高原职业危害因素鉴定,并为制定相应的卫生保障措施提供依据。研究结果表明,气压、氧分压和海拔高度是影响地面作业人员生理指标的主要影响因素,另外,格拉段高寒、多风的气候特点也是重要影响因素。关键词:青藏铁路;偏最小二乘;生理指标;环境影响因素中图分类号:O213.9文献标识码:A青藏铁路格拉段恶劣的自然环境,对长期工作、生活在这条铁路线上的工作人员的身心健康和劳动能力产生很大的影响[1]。本文采用对格拉段10个领工区的环境测试指标及相应工作生活人员生理指标数据采用偏最小二乘(PLS)模型进行统计分析,探寻高原环境与工作人员生理指标(脉搏、收缩压、舒张压、血氧饱和度)的关系,从而分析高原低压、缺氧、高寒、多风等自然因素对青藏铁路地面作业人员的影响,进行高原职业危害因素鉴定,为制定相应的卫生保障措施提供依据。一、多因变量偏最小二乘回归原理由于本文所研究的是格拉段自然环境对地面作业人员多个生理指标之间的建模问题,样本量较少,自变量个数多且共线性复杂的高维数据。在这种条件下,多因变量偏最小二乘(PLS)回归模型是一个比较好的选择。偏最小二乘(PLS)回归分析在建模过程中集中了主成分分析、典型相关分析、多元线性回归分析方法的特点,具有计算量小、预测精度高、无需剔除任何自变量的优点,特别在自变量较多且共线性复杂的情况下相当有效。1、多变量偏最小二乘回归方法的基本思路设有q个因变量qyyy,,,21和p个自变量pxxx,,,21,取n个观测样本点后构成自变量数据集X和因变量数据集Y。偏最小二乘的基本方法是[2]:首先,在自变量数据集X和因变量数据集Y中分别提取第一成分1t和1u,要求1t和1u尽可能大地提取各自数据集中的变异信息,且1t和1u的相关程度最大。然后,建立X对1t的回归及Y对1u的回归,如果回归方程达到满意的精度,则停止计算。否则,利用X被1t解释后的残余信息以及Y被1t解释后的残余信息进行第二成分的提取,直到能达到一个较满意的精度为止。最后,偏最小二乘建立),,2,1(qkyk对最终对X提取的m个成分mttt,,,21的线性回*科技部国家科技支撑计划资助项目(2006BAC07B01)。-2-归,然后再表达成),,2,1(qkyk关于原自变量pxxx,,,21的回归方程,即偏最小二乘回归方程。2、多变量偏最小二乘回归方法的基本算法第一步:将X和Y进行标准化处理,标准化后的自变量矩阵和因变量矩阵分别记为0E和0F。第二步:从0E和0F中分别提取第一个成分,101wEt,101cFu,其中1w为0E的第一主轴11w,1c为0F的第一主轴11c。为了满足成分提取的要求,则需求解下列优化问题:11.,,max11111010,11ccwwtscFwEcw由拉格朗日算法可得,1w为对应于矩阵0000EFFE最大特征值的单位特征向量,1c为对应于矩阵0000FEEF最大特征值的单位特征向量。然后,分别求0E和0F对11,ut的三个回归方程1110EptE*1110FquF1110FrtF其中,回归系数向量为21101ttEp21101uuFq21101ttFr。第三步:用残差矩阵1E和1F取代0E和0F,提取第二个成分22,ut,并求1E和1F对22,ut的回归方程2221EptE2211FrtF如此计算下去,如果X的秩为A,则有AAptptptE22110AAAFrtrtrtF22110由于Attt,,,21都可以表示成PEEE00201,,,的线性组合,以上两式可以还原为kkFy0*关于jjEx0*的回归方程:AkpkpkkkFxaxaxay**22*11*),,2,1(qk,其中系数kpkkaaa,,,21体现了标准化的向量**2*1,,,pxxx对*ky的作用强弱。3、成分个数的确定偏最小二乘多数情形下只需选取前m个成分就可以得到一个比较可靠的模型。如果后续的成分已经不能为解释0F提供更有意义的信息,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。对于成分的提取,本文采用广泛应用的确定成分个数的交叉有效性系数2hQ-3-来确定。对全部因变量Y,成分ht的交叉有效性定义为qkkhqkhkhSSPRESSQ1)1(121对每一个因变量ky,定义为khhkhkSSPRESSQ)1(21其中niihkikhkyyPRESS12)()ˆ(,nikihikkhyySS12)1()1()ˆ(,iky是原始数据中第i个样本点在第k个因变量上的取值,)(ˆihky是利用前h个成分回归建模计算得到的iky的估计值,kihy)1(ˆ是在样本点中去掉第i个样本点,用1h个成分建模计算出的iky的估计值。当0975.02hQ,或至少有一个0975.02hkQ),,2,1(qk时,可以确定成分个数为h。三、格拉段地面工作人员生理指标自然环境影响因素的PLS回归分析1、变量与数据选取本文样本数据来源于中国铁道科学研究院环控劳卫研究所2007年11月5日到14日采集的格拉段各工区的环境测试数据和环境测试场所相应工作生活人员生理指标数据。剔除缺失数据,最后选择了格尔木、沱沱河、秀水河、五道梁、纳赤台、不冻泉、安多、那曲、当雄、拉萨10个领工区相关数据,分析所用数据为环境测试指标及相应工作生活人员生理指标数据的平均值。自变量即环境测试指标为温度(x1)、湿度(x2)、风速(x3)、气压(x4)、氧分压(x5)、二氧化碳(x6)和海拔高度(x7)。因变量为相应工作生活人员脉搏(y1)、收缩压(y2)、舒张压(y3)、血氧饱和度(y4)。整理后数据如表1。表1:格拉段10个领工区环境测试指标及相应工作人员生理指标数据地点格尔木沱沱河秀水河五道梁纳赤台不冻泉安多拉萨那曲当雄温度℃16.6016.9010.958.7013.058.988.209.8411.7111.35湿度%21.8421.4222.8021.6033.4031.7834.7729.3224.0937.45风速m/s2.140.530.201.300.150.550.451.201.201.50气压kpa73.5157559.1517558.78658.12166.558.65357.58966.207459.18560.8475氧分压kpa14.9611710.5189710.6559610.4923712.395610.138599.4589611.4167210.2928710.5469二氧化碳%0.050.060.050.030.050.070.060.060.050.08海拔高度m2651457546504618356046004702357045134293脉搏次/分81.0097.3691.5086.5083.7596.40101.7585.3695.5091.33收缩压mmHg95.00108.64120.00115.00107.50102.00129.38110.36104.29104.33舒张压mmHg64.2975.9575.0085.0083.7571.0096.2581.1478.8675.83血氧饱和度%95.0087.0086.5085.0091.7586.2088.0092.4389.5089.172、环境影响因素的PLS回归分析表2:自变量间的相关系数x1x2x3x4X5x76X7y1y2y3y4-4-x11.00-0.430.240.550.64**-0.01-0.52-0.29-0.56*-0.58*0.47x21.00-0.21-0.08-0.270.68**0.060.210.140.370.09x31.000.520.52-0.05-0.53-0.47-0.57*-0.430.49x41.000.96**-0.07-1.00**-0.80**-0.58*-0.460.92X51.00-0.22-0.95**-0.81**-0.61*-0.56*0.81**x61.000.080.39-0.19-0.180.08X71.000.80**0.58*0.43-0.93**y11.000.470.37-0.62y21.000.81**-0.50y31.00-0.29y41.00注:**在0.05的显著性水平下显著,*在0.1的显著性水平下显著。由表2知,多个自变量间的相关系数在0.05的显著性水平下显著,说明自变量之间存在多重共线性问题。另外,从11/ut的平面图(图1)可知,解释变量组的第一成分1t和因变量组的第一成分1u呈现一定的线性形式,这说明这两组变量存在比较强的相关关系。因此,采用偏最小二乘回归方法建立模型是比较合理的。图111/ut的平面图2.1成分个数的确定为确定成分的个数,我们首先进行交叉有效性分析。由表3知,对全部因变量,从第二个因子开始22Q=-0.02885190.0975,分别对四个因变量的交叉有效性从第二个也都为负值,根据交差有效性判断,只需提取一个成分1t即可。第一个成分对自变量集合中的信息提取程度为53.1431%,对自变量系统有较好的代表性。同时,对因变量系统的累积贡献率为53.3356%,也能对因变量做出比较好的解释。表3对全体因变量以及对每个因变量的交叉有效性成分Y脉搏1y收缩压2y舒张压3y血氧饱和度4y临界值-5-1t0.437440.552370.3125790.1883560.6964530.09752t-0.0288519-0.0436577-0.0166307-0.00425758-0.09644380.09752.2格拉段地面工作人员生理指标自然环境影响因素的PLS回归模型通过提取的1个成分所得到标准化的PLS回归系数见表4.。模型基于标准化后的数据计算,模型的系数反映了各解释变量对生理指标脉搏、收缩压、舒张压及血氧饱和度作用的方向和大小。表4标准化的PLS回归系数脉搏收缩压舒张压血氧饱和度温度-0.129552-0.115148-0.09923740.147671湿度0.03705560.03293560.0283847-0.0422382风速-0.136212-0.121068-0.1043390.155263气压-0.200112-0.177863-0.1532870.2281氧分压-0.199387-0.177218-0.1527310.227273二氧化碳-0.0302795-0.0269129-0.02319430.0345145海拔高度0.16145998740.1766430.152236-0.226536表5原始数据的PLS回归系数脉搏收缩压舒张压血氧饱和度常数项112.791137.643100.07877.406温度-0.283648-0.365165-0.278770.151948湿度0.04044350.05206660.039748-0.0216653风速-1.42718-1.83734-1.402460.76453气压-0.259687-0.334306-0.2552110.139107氧分压-0.858077-1.10464-0.8432880.459647二氧化碳-15.423-19.8546-15.15718.26162海拔高度0.001956530.002518830.00192289-0.0010481从标准化回归系数的取值可以看出因变量脉搏、收缩压

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功