1人均GDP与未婚生育率的相关性分析实验报告一、选题原因随着社会经济的发展,经济总量的不断激增,世界经济格局的演变,人均GDP正呈现着两极分化的趋势;随着东西方文化的交汇融合,人们对于性的观念也在不断的发生着变化,青春期生育率(即每千名15-19岁女性生育数)这个问题也就随之产生。在我们传统印象里,东方传统文化覆盖的地区,青春期生育率一直以来相对较低,在西方文化覆盖的地区,青春期生育现象较之东方颇为普遍。然而,随着经济文化的不断发展,“90辣妈”,“童颜母亲”等字眼不断出现在我们身边,似乎该现象是随着人均GDP上升而上升。但是同时在广袤的第三世界国家中,尤以非洲,中南美洲以及南亚地区为甚,青春期生育率似乎与人均GDP背道而驰,越是贫穷的地方——即人均GDP越低的地区,青春期生育现象越发普遍。到底人均GDP与青春期因此,针对该现象,我们从WORLDBANK搜集采纳了各个国家的青春期生育率数据,考虑到世界经济格局在进入到21世纪后发生了不可忽视的变化,经济全球化浪潮也推动了世界移民的热潮,为了使数据更具有代表性,我们剔除了过去较为陈旧的数据,整理了近三年的全球各个国家的青春期生育率数据作为数据容量,并结合各国近三年人均GDP数据,对二者相关性进行了此次分析。二、数据获取与预处理2首先在世界银行的数据库获取官方数据:,在这里首先要说明的是,由于GDP的数值远大于青春期生育率的数值,因此在后边分析的时候生育率的数值都是选的去掉百分号的数值,但这并不影响分析过程与结果,仅仅是为了方便。由于可以下载excel格式的数据,尝试直接将其导入SAS:可以看出SAS对于原始数据的支持程度较差,需对数据作进一步的预处理:首先删掉表头,然后删掉IndicatorName、IndicatorCode等对数据不产生影响的属性,最后只保留countrycode以及近三年的数据,两张表都做类似处理,再将其导入SAS:3通过观察发现进过处理的数据仍然有空值存在,因此作进一步处理:由于两张表的countrycode属性是一样的,因此首先作横向合并:4New表格如下图所示,但发现仍然存在不少空值,作进一步处理:最终得到的表格如下图:三、数据分析1、数据特征分析通过means对数据进行大致的特征与统计量分析:5求出近三年生育率与人均GDP的均值作为新的数据加入表中,并删除原始数据:procmeansdata=first.New1;run;datafirst.new2;setfirst.new1;syl_jun=(_011sly+_012sly+_013sly)/3;gdp_jun=(_011GDP+_012GDP+_013GDP)/3;datafirst.new3;setfirst.new2;drop_011GDP_012GDP_013GDP_011sly_012sly_013sly;run;62、正态分布检验对新获得的人均GDP均值及青春期生育率均值进行正态检验,判断其是否符合正态分布,只有符合正态分布才能做进一步的相关以及回归性分析:procunivariatedata=first.new3normal;varsyl_jungdp_jun;run;由于数据样本不大,直接选取W检验查看:7两个数据P值都小于0.0001,符合正态分布,但人均GDP均值更接近标准正态分布。3、相关性分析数据服从正态分布,因此可以做进一步的相关性检验:proccorrdata=first.new3;varsyl_jungdp_jun;run;通过分析皮尔逊相关系数来判断其相关性4、相关性分析通过上表可以看出,P<0.0001,二者存在明显的负相关性,及人均GDP越高,生育率反而越低,二者具体存在怎样的一种相关性呢,通过一元回归作进一步分析:procregdata=first.new3;modelsyl_jun=gdp_jun;run;quit;以GDP为自变量,生育率为因变量,二者存在如下关系:即生育率=63.69367+人均GDP×(-0.00102)由于P<0.0001,该结果也是可信的。四、结论分析通过以上分析,我们可以得出结论:人均GDP与生育率之间存在着明显的负8相关性,人均收入越高,在15-19进行生育概率就会越低。这与过去越穷的地方结婚越早,生孩子越多的印象基本是吻合的。“童颜辣妈”等事情之所以能够成为新闻也是由于其稀缺性,像美国常见的那种年轻单亲妈妈毕竟是一种非主流现象。随着男女平等的概念越来越深入人心,人们也越来越意识到过早的生孩子是对女性的一种伤害,因此未来的青春期生育率进一步的降低还会是一种趋势。由于时间的关系,这次只是进行了简单的回归分析,未来还可以按文化类型及经济发展情况对国家的属性进行分类,如东亚、西欧、北美等,然后作进一步的聚类分析来判断文化、经济等多方面因素与未婚生育率的关系。