年月水利学报第卷第期收稿日期基金项目国家自然科学基金国家重大基础研究前期研究专项国家十五科技攻关项目作者简介金菊良男江苏吴江人博士教授主要从事水资源系统工程研究文章编号流域非点源污染源解析的投影寻踪对应分析方法金菊良洪天求魏一鸣合肥工业大学土木建筑工程学院安徽合肥合肥工业大学资源与环境工程学院安徽合肥中国科学院科技政策与管理科学研究所北京摘要为分析非点源污染物及其来源的因果关系提出了基于加速遗传算法的投影寻踪对应分析方法并应用于流域非点源污染源解析研究中应用结果表明土地利用方式与流域营养物地表径流输入特征之间存在明显的类对应关系巢湖各主要入湖河流水中和营养盐分输入特征可以分为差异明显的类改进土地利用方式和有效控制营养盐分的输入是减少和控制巢湖流域非点源污染的重要途径由于根据一维投影值的散布图进行聚类分析因而操作较现有方法简便精度亦容易保证关键词非点源污染源解析土地利用方式对应分析投影寻踪方法中图分类号文献标识码研究背景流域非点源污染是指在流域降雨径流的淋溶和冲刷作用下大气中地面和地下的污染物进入流域水体而造成的水体污染其复杂性主要表现为污染物来源的不确定性污染发生的随机性污染负荷的时间变化和空间变化的差异性以及污染防治的艰巨性等随着流域内经济社会的快速发展和人口的增长以及流域点源污染治理水平的不断提高流域非点源污染的比重和危害在不断增大已成为流域水安全复杂系统的重要组成部分流域非点源污染源解析就是识别流域非点源污染物及其来源的因果对应关系以提出减少和控制流域非点源污染物输入的途径和措施是流域水安全管理研究的重要内容之一目前常用的源解析方法有标示物比较分析法机理模型法经验模型法概念性模型法多元统计分析方法智能分析方法以及多种方法的综合方法等由于受实验条件等的限制标示物比较分析法机理模型法等方法在应用中存在一定局限性而多元统计分析方法中的对应分析方法采取独特的数据预处理方式使样本矩阵和变量矩阵呈对称性具有相同的特征值从而可以在相同标度的因子轴坐标系中同时标度变量点和样本点根据这些点群的接近关系分析解释和推断变量之间样本之间以及变量与样本之间的内在联系在地质医学环境等领域得到了广泛应用目前在应用中的主要问题若主要因子数目多于个则点群的图示比较困难如何合理地测度因子轴坐标系中变量点之间样本点之间以及变量点与样本点之间的接近程度常用的目估方法具有一定的主观随意性容易导致解析结果不正确为此本研究在文献等的基础上提出用基于加速遗传算法的投影寻踪方法把各非零特征值对应的因子载荷综合成一维投影值以客观地解析变量点和样本点间的多重内在联系的新途径称之为投影寻踪对应分析方法并应用于流域非点源污染源解析研究中为流域水安全管理提供科学依据投影寻踪对应分析方法投影寻踪对应分析方法的建立包括以下个步骤步骤原始数据的变换设由第个样本的第个变量的观测值组成的原始数据矩阵为其中为样本数目为变量数目将变换为?式中矩阵关于和是对称的故可将型因子分析和型因子分析结合起来步骤计算变量的协方差阵步骤据进行型因子分析先求的特征值及相应的特征向量并按特征值从大到小排序不失一般性记这些特征值为设前个为非零特征值相应的单位化特征向量为计算型因子载荷阵?????????式中为第个主因子载荷步骤据进行型因子分析由于故与的非零特征值相同即也是的特征值相应的特征向量为不失一般性将阵的特征向量单位化后仍记为计算型因子载荷阵?????????从信息利用角度看和有相同的非零特征值这些非零特征值表示各个主因子所提供的方差因此变量空间中的第一主因子第二主因子第主因子它们与样本空间中对应的各主因子在总方差中所占的百分比全部相等从几何意义角度看中诸样本点与各因子轴的距离平方和以及中诸变量点与相对应的各因子轴的距离平方和是完全相等的因此可以把变量点和样本点同时反映在相同因子轴所确定的坐标系中根据接近程度可以对变量点和样本点同时进行分类步骤用基于的投影寻踪方法把个变量点和个样本点的个主因子载荷综合成一维投影值式中当点序号时当点序号时为单位化投影方向为了分析解释和推断变量点和样本点之间的多重内在联系在综合投影值时要求投影值的散布特征应为局部投影点尽可能密集昀好凝聚成若干个点团而在整体上投影点团之间尽可能散开为此投影指标函数可构造为式中为投影值的标准差为投影值的局部密度即?式中为序列的均值为计算局部密度的窗口半径一般可取值为距离为单位阶跃函数当时其函数值为否则其函数值为当给定个变量点和个样本点的个主因子载荷时投影指标函数只随投影方向的变化而变化不同的投影方向反映不同的数据结构特征昀佳投影方向可昀大可能暴露维载荷数据的分类特征结构因此可通过求解投影指标函数昀大化问题来估计昀佳投影方向即用解上述非线性优化问题较为简便的具体算法可参见文献步骤分类和解析把由步骤求得的昀佳投影方向代入式得个变量点和样本点的投影值值越接近的点它们之间的内在联系被认为越密切据此可对个变量点和样本点进行分类并结合原始数据所涉及的专业背景知识分析解释和推断这些变量点和样本点之间的内在联系应用实例巢湖流域位于安徽省中部处于长江和淮河两河流之间是皖中乃至全国重要的经济区也是中国大淡水湖中污染昀为严重的湖泊之一流域面积流域地势西高东低中间低洼平坦流域内低山低山丘陵和丘陵岗地面积其中有明显水土流失的面积约占是流域内水土流失的主要源地流域的水系呈放射状水网密度大全流域共有河流条分别属杭埠丰乐河派河西淝河店埠河柘皋河兆河白石山河和裕溪河共条水系巢湖流域地处长江北岸江淮丘陵地带土地资源经长期开发利用逐步形成了水稻旱作经济作物栽培以及人工森林植被等多种土地利用类型土地利用潜力大但后备土地资源贫乏人多地少的矛盾突出土地利用不平衡局部地区土地复垦指数高达随着流域内经济社会的快速发展和人口的增长流域非点源污染日趋严重下面通过两个实例进一步说明应用进行巢湖流域非点源污染源解析的具体过程算例巢湖流域塘西地区营养物地表径流输入与不同土地利用方式之间关系的解析该地区土地利用方式多样所在湖区叶绿素和指标常常处于严重超标使水体呈重富营养状态属非点源污染源的典型区域采用地表径流实地监测方法得到巢湖流域塘西地区各主要土地利用类型地表径流营养物平均浓度监测数据表表中由个样本点土地利用类型点序号为和个变量点营养物平均浓度点序号为组成的原始数据阵经式和式得矩阵用法求得该阵的个非零特征值及其单位化特征向量代入式和式得型因子载荷阵和型因子载荷阵分别见表中点序号和点序号对应的因子载荷阵列向量把表中的因子载荷阵列向量代入式再根据式式和式即得比例的投影指标函数用优化由式和式所确定的优化问题得昀大投影指标函数值为昀佳投影方向为把代入式后即得各样本点和变量点的投影值结果见表图为例的的一维散布图表不同土地利用类型营养物地表径流检测数据单位?土地类型总总总水溶性水溶性水溶性大豆地冲畈水田菜园地山芋地小麦地集镇道路山坡地饲养地农村道路湖滩苇地荒地注中的数字为点序号表例的因子载荷阵及其投影值点序号因子载荷阵列向量特征值特征值特征值特征值特征值投影值按投影值从大到小排序点序号投影值根据表和图可把例的个样本点和变量点分成如下类类由点序号和组成类由点序号和组成类由点序号和组成这说明巢湖流域塘西地区营养物地表径流输入与不同土地利用方式之间存在明显的对应关系总氮水溶性氮和水溶性的输入主要来自大豆地菜园地山坡地农村道路的地表径流输入由于林地和草地比例小农用地比例大导致地表水径流中总氮水溶性氮和水溶性的浓度也较高总磷和水溶性磷的污染主要来自冲畈水田山芋地小麦地饲养地湖滩苇地荒地的地表径流输入这主要是由于这些土地类型不利于土壤养分的保持总主要来自集镇道路的地表径流输入其次为湖滩苇地和山芋地等的地表径流输入变量总氮水溶性氮和水溶性属于同一源变量总磷和水溶性磷属于同一源总的成因单独成一类的这些结论与该地区的实际情况相符也与文献中用样本和变量在二维因子平面上的图解分类方法的结果完全一致与文献中模糊聚类对应分析方法的结果除点序号湖滩苇地的分类结果外也相一致这将有利于指导合理布置巢湖流域的土地利用方式和作物的种植结构控制流域地表径流输入的营养物类型以有效地管理流域非点源污染由于利用了所有非零特征值所对应的因子载荷信息显然其信息利用程度比只利用少数几个非零特征值所对应的主因子载荷信息的其它对应分析方法更充分些在样本点和变量点的聚类过程中根据一维投影值的散布图进行而其它对应分析方法则常常需要在样本和变量二维因子平面上进行聚类显然相对比较容易聚类准确度更容易得到保证图例的样本点和变量点的投影值的散布算例巢湖流域主要入湖河流河水中富营养化盐分组成及其输入特征的解析为分析巢湖各主要入湖河流河水中和盐分的输入特征采用河水径流实地监测方法以巢湖流域条主要入湖河流为研究对象根据河流水情特征按季度在月分次连续监测分析各河流入湖河水中不同形态营养元素的浓度根据监测的结果进行计算与统计整理结果见表表巢湖流域主要河流水中和盐分浓度检测数据单位?河流总氮溶解态悬浮态总磷溶解态悬浮态杭埠河南淝河白石山河派河柘皋河兆河注中的数字为点序号同例用解得表原始数据阵的个非零特征值及其单位化特征向量以及型因子载荷阵和型因子载荷阵把这些因子载荷阵列向量代入式再根据式式和式即得此例的投影指标函数用优化由式和式所确定的优化问题得昀大投影指标函数值为昀佳投影方向为把代入式后即得各样本点和变量点的投影值结果见图图例的样本点和变量点的投影值的散布根据图可把例的个样本点和变量点分成如下类类由点序号和组成类由点序号和组成类由点序号和组成这说明巢湖流域主要入湖河流河水中富营养化盐分组成及其输入特征为杭埠河入湖河水中的富营养化盐分以总磷和总氮为主要特征南淝河柘皋河和兆河入湖河水中以溶解态和溶解态为主要特征白石山河入湖河水中以悬浮态为主要特征派河入湖河水中以悬浮态为主要特征变量总氮与总磷可以归为一类溶解态与溶解态可以归为一类悬浮态单独成一类悬浮态也单独成一类的这些结论与表河水径流实地监测数据情况相符而与文献中用样本和变量在二维因子平面上的图解分类方法的结果不同之处为文献中认为杭埠河入湖河水中的富营养化盐分以总磷和溶解态为主南淝河柘皋河兆河入湖河水中则以总氮和溶解态为主要特征表说明杭埠河入湖河水中的各富营养化盐分浓度相对于其它河流而言比较低所以解析为以总磷和总氮为主要特征比较合理南淝河柘皋河和兆河入湖河水中的富营养化盐分既反映了溶解态的高浓度特征又反映了溶解态的浓度高于悬浮态的浓度的特征而这些河流的总氮的高浓度特征已主要由它们的溶解态的高浓度特征所表示因此的解析结果比文献的全面些结论为深入探讨流域非点源污染物及其来源的因果对应关系提出了用基于加速遗传算法的投影寻踪方法把对应分析中各非零特征值对应的因子载荷综合成一维投影值以客观地解析变量点和样本点间的多重内在联系的改进对应分析方法把应用于巢湖流域营养物地表径流输入与不同土地利用方式之间的解析和巢湖流域主要入湖河流河水中富营养化盐分组成及其输入特征的解析结果表明土地利用方式与流域营养物地表径流输入特征之间存在明显的类对应关系巢湖各主要入湖河流河水中和营养盐分输入特征可以分为差异明显的类改进土地利用方式有效控制巢湖水体外源性营养盐分的输入是减少和控制流域非点源污染物输入的重要途径和措施利用所有非零特征值所对应的因子载荷信息进行分析其信息利用程度比只利用少数几个非零特征值所对应的主因子载荷信息的现有对应分析方法更充分根据一维投影值的散布图进行聚类分析与目前的对应分析方法在样本和变量二维因子平面上进行聚类相比的操作相对比较简便准确度也更易得到保证在其它流域非点源污染源解析中也具有一定的应用价值参考文献李怀恩沈晋非点源污染数学模型西安西北工业大学出版社毛战坡尹澄清单保庆等农业非点源污染物在水塘景观系统中的变异性研究水利学报陈绍金水安全系统评价预警与调控研究北京中国水利水电出版社金菊良王文圣洪天求等流域水安全智能评价方法的理论基础探讨水利学报蔡明李怀恩庄咏涛等改进的输出系数法在流域非点源污染负荷估算中的应用水利学报王宗志金菊良洪天求巢湖流域非点源污染物来源的模糊聚类对应分析方法土壤学报王学仁地质数据的多变量统计分析北京科学出版社高惠璇应用多