中央民族大学大学生每月总开销费用的调查与分析——期末论文07级统计班0733002李星颐摘要随着生活条件的日益改善,当今社会的消费观念也发生了很大变化,尤其是大学生年轻有朝气,更喜欢新鲜时尚的东西,在这种时代背景下,大学生的消费习惯必然也会随之改变。这就使得调查研究大学生的消费问题变得非常必要。本文以中央民族大学学生每月总消费为切入点,首先,要了解该校大学生每月消费总金额的大概范围,其次,要试图分析出影响该校大学生消费的可能的因素,为以后的进一步研究做参考。针对估计中央民族大学大学生每月消费总金额的范围的问题,本文采取了整群抽样(按入样班级在教室现场发放问卷)与简单随机抽样(在食堂或道路拦截访问)相结合的方法。对可能影响消费的因素通过调查问卷的方式进行调查。在分析各个因素与消费型态的相关性问题上,采取了2独立性检验的方法,试图找出真正影响消费型态的因素。通过本文的这一整套方案的提出,可为我校大学生的消费状况做出参考性的意见。关键词:抽样调查、简单随机抽样、整群抽样、2独立性检验一.调查问卷设计1.问卷类型的确定调查问卷的类型按回答问题的形式分,有“开放式问卷”和“封闭式问卷”两种。根据我们所研究的目的和主题,本文的调查问卷采用了一种最常用的形式,即封闭式问卷。例如,用画圈的形式回答下列问题:你的性别:男…….1,女…….2。这种形式的问卷便于被调查者回答,也便于进行资料的整理以及深入的统计分析。2.研究假设的确定以及量表的制定在设计问卷的过程中,除了考虑调查的目的和主题外,还必须考虑到研究者的研究假设。所谓研究假设是根据有关理论和事实,研究者对有关变量之间的相互关系的一种叙述或断言。例如,“恋爱与大学生的消费型态有关系”就是我们的研究假设。我们知道所谓研究假设就是备择假设1H。相应的原假设0H为“恋爱与大学生的消费型态没有关系”。我们要根据所收集的数据资料,进行相应的假设检验。如果结论是拒绝0H、接受1H,那么这一研究假设就可以认为是合理的。针对这一研究假设,就应该有相应的问卷设计。例如要有关于测量“是否恋爱”的量表,还要有关于测量“大学生消费型态”的量表。根据相关文献显示,根据所测量的变量的四种级别,量表从低级到高级有四种水平,它们分别是:⑴定类量表。用于测量定类变量。例如用1表示男,2表示女。用该量表测量的变量不能做加、减、乘、除运算。适用的统计方法有频数分析;求众数、比例;2检验;部分相关分析(列联相关等)。⑵定序量表。用于测量定序变量。例如用1表示很不喜欢,2表示不喜欢,3表示无所谓,4表示喜欢,5表示非常喜欢等等。用该量表得到的数字表示等级或大小顺序,并不表示量的绝对大小,等级间的间隔也不一定相等,因此一般也不能作加、减、乘、除运算。适用的统计方法有求中位数、百分位数、部分的相关分析等。⑶定距量表。用于测量定距变量。例如温度等。它有大小的关系。可以相互做加、减运算。适用的统计方法有求均值、标准差、皮尔逊积矩相关、T检验等。⑷定比量表。用于测量定距变量。例如身高、体重等。可进行加、减、乘、除运算。所有的统计方法都有可能是适用的。3.量表的转换在本次调查中,我们采用一种累加的李克量表,将多个定序变量进行综合后,得到一个新的综合性的变量,并将其按照定距变量来对待。李克量表有3级、4级等多种,根据问题的性质可采用适当的量表。具体的问卷设计结果见附录。二.抽样方案的设计为了调查中央民族大学大学生每月总消费的金额,由于事先不清楚具体的范围,我们参考了《北京晨报》的一条消息:北京大学生的消费层次差距较大。每月生活费在500元以下的占一成半,500至800元的占近六成,800至2000元的占两成,2000元以上的占到5.5%。(该消息在2007年由北京市朝阳区统计局权威发布)根据这条消息所提供的范围,我们将中央民族大学大学生每月总开销费用分为4个档次:500元以下15%500-800元59.5%800-2000元20%2000元以上5.5%则我们关心的是如下4个总体指标:若否。,元以下的;个单元是每月总消费若第,05001)1(iYi若否。,元的;个单元是每月总消费若第,08005001)2(iYi若否。,元的;个单元是每月总消费若第,020005001)3(iYi若否。,元以上的;个单元是每月总消费若第,020001)4(iYi那么,总体中具有第j种特征的单元总数为:NijijjjYYA1)()()(4,3,2,1,,其中NAjj41)(。而具有第j种特性单元在总单元数N中的比例)(jP就是4,3,2,1,)()(jNAPjj。下面为了估计总体指标)(jP,初步设想了简单随机抽样、分层随机抽样和整群抽样三个方案,并对其可行性进行分析:1.简单随机抽样1.1.样本量的确定已知估计的总体参数是总体比例)(jP,j=1,2,3,4,则用样本比例)(jp作为估计量。设d是)(jp的绝对误差限,则样本量Nnnnjjj)1(1)(0)(0)(,其中)()(2)()(2)(01,jjjjjPQdQPun。在实际计算中必须实现对)(jP进行估计,可以根据前面的历史数据给出)(jP的估计分别为15%,59.5%,20%,5.5%。再由一些参考书上的经验值给出置信度为95%,绝对误差限d为5.0‰。(即方差上限22udV确定),代入相应的公式即可求得)(jn的近似估计)(0jn。若Nnj)(0,则就去)(0)(jjnn,否则用Nnnnjjj)1(1)(0)(0)(修正)(0jn。为了抽样操作的方便,取4,3,2,1,max)(jnnj,这样可避免抽取4个样本的操作,变为只抽一个样本,可在保证精度的同时减少工作量。1.2.对总体比例的估计从上述只有0,1两种指标值的总体中抽取1个样本量为n的简单随机样本后,设)(ja是这个样本中对于第j个特征指标值为1的单元数,则样本比例napjj)()(,估计量的方差的估计量为,)1()()()()(jjjqpnNnNpv其中)()(1jjpq。当n大时,我们有)(jP的近似置信区间(置信度为1):1)1(,1)1()()()()()()(nqpfupnqpfupjjjjjj,其中Nnf。2.分层随机抽样2.1.样本量的确定2.1.1.使用与简单随机抽样相同的方差上限V确定样本量)(jn:设中央民族大学共有L个院系,按院系将所有学生分为L层,以h表示层的编号,h=1,2,…,L。第h层的单元数为hN,它是已知的,且NNLhh1。NNWhh称为层权,它也是已知的。在估计总体比例情形下,考虑到精确度的问题分别利用比例分配和最优分配奈曼分配的方法对样本量做出估计,在最优分配的过程中,我们为便于操作,并考虑到各院系调查的实际情况,即在中央民族大学一个学校的范围内,调查费用不会相差很大,于是决定采用奈曼分配的方法。并依据利用简单随机抽样方法确定的方差上限V来,具体算法如下:⑴采用比例分配的方法:基本公式:LhjhjhhjQPWVn1)()()(01Nnnnjjj)(0)(0)(1⑵采用奈曼分配的方法:21)()()(0)(1LhjhjhhjQPWVnLhjhjhhjjQPWNVnn1)()()(0)(11其中可将上一次调查的)(jhp,)(jhq作为这一次调查)(jhP与)(jhQ的近似。2.1.2.各层样本量的确定⑴采用比例分配确定各层样本量:LhjnWnjhjh,,2,1;4,3,2,1,)()(⑵采用奈曼分配确定各层样本量:hjhjhhjhjhhjhjhjhhjhjhhjjhQPWQPWnQPNQPNnn)()()()()()()()()()()(2.2.对总体比例的估计:采用比例分配估计:估计量为:Lhjhjjanp1)()()(1,其中)(jha是第h层样本中具有第j种特征的单元数。当)(jhn比较大时,估计量的方差的一个近似无偏估计为:LhLhjhjhhjjjhjhjhjhhjjjqpWnfnqpnWnfpv11)()()()()()()()()()()(111)(3.整群抽样3.1.样本量的确定将中央民族大学按班级为初级单元分为N个群,一般来说群大小是不相等的,对群的抽样仍按简单随机抽样,用1.1中的方法确定样本量为n,则记所抽群的大小为im,i=1,2,…,n。3.2.对总体比例的估计设群中具有所考虑的第j中特征的小单元数为)(jia,则很自然地,总体比例)(jP的估计可采用:niinijijmap11)()(则估计量的方差的估计为:)2(111)(1)()(122)(12)(2)(inijijniijnijijmapmpanmnfpv其中niimnm11。三.抽样方案可行性分析:此次调查工作的费用主要是问卷印制,大体固定。在这种情况下,评价一个方案的好坏,主要是看哪种方案在精度相同的前提下更节省时间和精力。首先,对于简单随机抽样的方法,虽然按照样本量确定的过程可将抽取4个样本化为只抽取一个样本,但是这种抽样方法可能导致抽取的样本中的个体单元比较分散,造成调查工作的不便,因此,这是该种方法的弊端。其次,对于分层随机抽样的方法,根据样本量的确定过程,需要抽取四个样本量不同的样本,而且每一层的样本量也必然各不相同,这样的抽样程序也相当繁琐,耗费时间和精力也较多。最后,对于整群抽样的方法,在保证与前两种方法同样的精度下,只需对初级单元(全校所有班级)进行一次抽样,而且样本中次级单元的分布也相对集中,便于调查访问工作的进行。综合上述的分析,初步认为,整群抽样的方法是最佳选择。可按照该方法的流程,把全校的所有班级都编成一个抽样框,按照样本量的确定方法确定所要抽取的班级数量,在用简单随机抽样抽取班级,对入样班级在教室进行现场问卷发放,然后再收回即可进行分析。另外,在实际中我们预计可能会出现班级学生缺勤、不作答等情况,导致回收的问卷数量不够。因此,在实施整群抽样方案的同时,可用简单随机抽样的方案进行弥补,即对缺少的问卷通过在食堂或道路拦截访问来填补。两种方案相结合,保证了我们想达到的预期效果。四.创新性探索在得到中央民族大学学生月消费档次的大概估计之后,我们开始思考大学生的消费活动是否活跃,以及影响大学生的消费程度各种可能的因素等问题。1.对大学生消费程度的分类:根据调查问卷的设计,第二部分的综合调查问卷实际上是一个测量“中央民族大学学生消费程度”的4级李克累加量表(见附录)。在表中,一共有9个项目(变量),每一个项目上的得分严格来说是定序量表的测量值,但9个项目的总分一般则按定距变量值来对待。称此综合变量为“中央民族大学学生消费程度”。根据某些分析的要求,还可以把该综合变量按其得分的大小重新归成两类、三类或五类。假定求出该调查样本的“中央民族大学学生消费程度”的平均值为x,标准差为s,按照某人的得分值X的大小将他对应的中央民族大学学生消费型态归结到低、中、高三类中的一类,即如果sxX,低sxXsx,中sxX,高如果归成两类的话,则可以按平均值x为分界线。2.影响中央民族大学大学生消费型态的因素的初探2.1.问题的提出在调查问卷中涵盖了可能影响中央民族大学学生消费型态的各种可能的因素,例如性别、年级、恋爱、记账习惯等。我们要分别鉴别这些因素与中央民族大学学生消费型态是否有关,对于每一种因素很自然的要用到2独立性检验的方法(列联表方法)。2.2.方案设计以恋爱这个因素为例,在将中央民族大学学生的消费型态归为三类的前提下,考虑二维总体),(YX.设X表示恋爱情况,可能的取值为2,121xx;Y表示中央民族大学学生的消费型态,可能的取值为)()()(321高,中,低yyy。利用上述整群抽样的方案抽取的容量为n的样本),(,),,(),,(2211nnYXYXYX,其中事件jiyYxX,发生的频数为)3,2,1;2,1(j