R语言论文——于海龙

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于R语言方法对大豆形状影响产量的研究学院理学院班级统计1001班姓名于海龙学号A20100089第1页基于R语言方法对大豆形状影响产量的研究背景分析大豆是是我国重要粮食作物之一,也是世界上最重要的豆类,已有五千年栽培历史,现知约有1000个栽培品种。大豆是一年生草本植物,其种子也称为大豆。也是世界上最重要的豆类。大豆起源于中国,中国学者大多认为原产地是云贵高原一带。也有很多植物学家认为是由原产中国的乌苏里大豆衍生而来。现种植的栽培大豆是从野生大豆通过长期定向选择、改良驯化而成的。本文通过对我国吉林省部分不同大豆品种对于其产量的影响作出分析。通过多元回归分析方法进行数学模拟,对影响大豆产量因素进行科学估计。下图是吉林省历年大豆产量及播种面积统计表。可以对吉林省的大豆产量状况做出直观估计。那么影响大豆产量的最主要的因素包括哪些呢?本文从吉林省大量大豆种子数据中抽样选取了部分样本做以分析说明。引起数据类型较符合统计方法中的多元回归分析,采用R软件进行统计分析。数据来源吉林省大豆品种及其产量情况第2页程序设计流程多元回归分析首先建立模型DZLZ=a1SYRS+a2ZG+a3ZC+a4DZLS+a5DZJS+a6YXFZS其中SYRS为种子的生育日数,ZG为株高,ZC为株粗,DZLS为单株粒数,DZJS为单株夹数,YXFZS为有效分枝数,DZLZ为单株粒重。程序如下x=read.table(D:\\test.txt,header=TRUE)xNUMNAMESYRSZGZCDZLSDZJSYXFZSDZLZ1A001HF2410267.60.773.829.30.1313.82A002HF2510266.90.8123.149.30.6021.53A003HF25(2)10562.20.8107.642.90.4018.64A004LQ(QH)10483.70.981.941.71.3314.05A005HHHD8970.10.673.736.91.5313.86A006SN19674.80.799.540.60.2017.17A007HH49555.70.781.236.90.7014.6提取数据采用多元回归分析方法R语言程序设计残差检验变量剔除第3页8A008HH178954.90.683.333.40.4012.99A009HH279460.90.764.529.60.0015.710A010SN1410277.90.782.737.10.0716.411A011LX111139.90.861.436.32.9221.412A012DN448951.90.676.432.30.3314.513A013SN1410380.60.8130.155.50.2723.914A014BF119760.00.677.333.90.1314.515A015HH199758.10.678.737.60.0715.916A016HF3910373.70.8100.742.20.0718.817A017SN1010479.50.777.928.60.2014.018A018HH1810479.70.788.338.70.5315.019A019BF99877.00.8104.240.30.0016.520A020BF149867.20.7104.544.10.0015.921A021HH139157.70.661.526.70.1312.222A022HF309874.20.8112.945.40.0718.723A023HH359053.20.561.624.30.0710.124A024HH299155.00.674.930.60.0012.025A025HH319357.50.568.533.90.1312.826A026HH258744.60.553.123.30.079.427A027JN2111295.50.8133.954.51.0023.428A028HH149447.30.667.728.10.3313.729A029HF379462.60.680.134.70.5312.430A030DD28139.40.562.226.70.009.3test-read.table('D:/test.txt',head=T)plot(x[3:9])test.reg-lm(DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZS,data=test)summary(test.reg)散点图如下所示第4页Call:lm(formula=DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZS,data=test)Residuals:Min1QMedian3QMax-3.0772-0.71430.09830.87503.1914Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)-15.010344.72092-3.1800.00418**SYRS0.226880.069473.2660.00340**ZG-0.085490.03144-2.7190.01223*ZC2.398894.893160.4900.62860DZLS0.043860.048490.9040.37514DZJS0.232790.125441.8560.07635.YXFZS0.142350.706570.2010.84211---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.441on23degreesoffreedomMultipleR-squared:0.8828,AdjustedR-squared:0.8522F-statistic:28.87on6and23DF,p-value:1.318e-09第5页由获得的数据可以看出有些变量的回归系数并不显著,如ZC(株粗),YXFZS(有效分枝数)的回归系数对应的T统计量p值均大于0.5,这说明将所有变量纳入回归模型是不合适的,因此要对变量进行筛选。程序如下test_step-step(test.reg)Start:AIC=27.93DZLZ~SYRS+ZG+ZC+DZLS+DZJS+YXFZSDfSumofSqRSSAIC-YXFZS10.084247.81925.987-ZC10.498848.23426.246-DZLS11.697749.43326.983none47.73527.934-DZJS17.147654.88330.120-ZG115.345463.08134.296-SYRS122.135269.87037.363Step:AIC=25.99DZLZ~SYRS+ZG+ZC+DZLS+DZJSDfSumofSqRSSAIC-ZC10.604448.42424.364-DZLS12.141749.96125.301none47.81925.987-DZJS112.979160.79931.191-ZG117.579465.39933.379-SYRS125.170772.99036.674Step:AIC=24.36DZLZ~SYRS+ZG+DZLS+DZJSDfSumofSqRSSAIC-DZLS12.22350.64723.710none48.42424.364-DZJS114.58763.01130.263-ZG117.10965.53331.440-SYRS148.09896.52243.057Step:AIC=23.71DZLZ~SYRS+ZG+DZJSDfSumofSqRSSAICnone50.64723.710-ZG114.89165.53729.443第6页-SYRS145.89496.54141.063-DZJS1108.182158.82955.999summary(test_step)Call:lm(formula=DZLZ~SYRS+ZG+DZJS,data=test)Residuals:Min1QMedian3QMax-3.4228-0.70390.22030.71593.1551Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)-15.702853.82613-4.1040.000356***SYRS0.240160.049484.8544.94e-05***ZG-0.075120.02717-2.7650.010333*DZJS0.346210.046467.4526.51e-08***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.396on26degreesoffreedomMultipleR-squared:0.8756,AdjustedR-squared:0.8613F-statistic:61.03on3and26DF,p-value:6.692e-12上表数据显示了每一步筛选的变量,筛选进行了四步,最终选入的模型变量为SYRS(生育日数),ZG(株高),DZJS(单株夹数)。根据最后一步筛选,可以写出的多元回归方程为:DZLZ=0.24061×SYRS—0.07512×ZG+0.34621×DZJS—15.70285下面我们通过残差图对以上结果进行检验程序如下Plot(test.reg)运行结果第7页1图2图第8页3图4图第9页由以上四个图表中分析可知第1个图是拟合值与残差的散点图,从图上可以发现,除去第9个离群点和第4个离群点外,所有点基本上是随机地分散在纵坐标值为-2和+2的两条平行线之间,这说明随机误差项具有同方差性,说明回归直线对原观测值的拟合情况良好。2图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;3图是拟合值与残差的标准差的散点图,其意义与1图类似;4图的CooK距离图进一步证实第9个观测值和第4个观测值是两个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。从“残差图”可以直观地看出残差的绝对数值都比较小,所描绘的点都在以0为横轴的直线上下随机散布,回归直线对各个观测值的拟合情况是良好的。说明变量自变量(种子性状)与因变量(单株产量)之间有显著的线性相关关系。结论从数据中分析得出结论,这说明种子的单株粒重受到生育日数,株高,单株夹数这三个因素的影响其依赖关系大致如回归方程所示。吉林省大豆产业无论是与竞争性作物相比,还是与其他大豆主产区相比都存在一定的比较优势,发展前景广阔。选种育种对于大豆产量的影响是明显的,采用科学的方法筛选出优质大豆既体现科学的严谨性的同时也使得农业产量科学性发展得以实现。大豆产品是吉林省的重要发展支柱,建立大豆产品市场质量标准和自主品牌;加强政府对大豆产业的扶持;建立健全适应大豆产业化经营需要的社会化服务体系。鼓励大豆产业发展,使之在带动吉林省农业可持续发展发挥科学示范作用。参考资料中国统计网百度百科中华粮网数据中心

1 / 10
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功