LOGO第二章描述统计CompanyLogo2.1基本概念(1)描述性研究科学研究的两个基本过程:提出问题、采用规范的、科学的研究方法回答提出的问题。心理学研究的两种途径:描述性研究、实验研究描述性研究(descriptivestudy)指在自然状态下收集数据,对现象进行系统描述,以解释可能不被人们注意的某种模式和联系。描述性研究是一种简单的研究方法,它将已有的现象、规律和理论通过自己的理解和验证,给予叙述并解释出来。它是对各种理论的一般叙述,更多的是解释别人的论证,但在科学研究中是必不可少的。CompanyLogo(2)描述性统计概念:描述统计,是统计学中来描绘或总结观察量的基本情况的统计总称。其与推论统计相对应。内容:研究者可以透过对数据资料的图像化处理,将资料摘要变为图表,以直观了解整体资料分布的情况。通常会使用的工具是频数分布表与图示法,如多边图、直方图、饼图、散点图等。研究者也可以透过分析数据资料,以了解各变量内的观察值集中与分散的情况。运用的工具有:集中量数,如平均数、中位数、众数、几何平均数、调和平均数。变异量数,如全距、平均差、标准差、相对差、四分差。CompanyLogo数据的次数分配情况,往往会呈现正态分布。为了表示测量数据与正态分布偏离的情况,会使用偏度、峰度这两种统计数据。为了解个别观察值在整体中所占的位置,会需要将观察值转换为相对量数,如百分等级、标准分数、四分位数等。CompanyLogo2.2数据的收集资料来源:心理观察、心理测量、心理实验研究方法:个案研究、总体研究、抽样研究CompanyLogo2.3统计表(1)概念统计调查所得来的原始资料,经过整理,得到说明社会现象及其发展过程的数据,把这些数据按一定的顺序排列在表格中,就形成“统计表”。统计表是表现数字资料整理结果的最常用的一种表格。统计表是由纵横交叉线条所绘制的表格来表现统计资料的一种形式。统计表是用原始数据制成的一种表格。统计表是集中而有序地体现统计资料的表格CompanyLogo(2)类型统计表的形式繁简不一,通常按项目的多少,分为单式统计表和复式统计表两种。只对某一个项目的数据进行统计的表格,叫做单式统计表,也叫做简单统计表。统计项目在两个或两个以上的统计表格,叫做复式统计表。按作用不同:统计调查表、汇总表、分析表。按分组情况不同:简单表、简单分组表、复合分组表。简单表:即不经任何分组,仅按时间或单位进行简单排列的表。简单分组表:即仅按一个标志进行分组的表。复合分组表:即按两个或两个以上标志进行层叠分组的表。CompanyLogoCompanyLogoCompanyLogo表*注:CompanyLogo2.4统计图2.4.1概念统计图是指利用几何图形或具体事物的形象和地图等形式来表现社会经济现象数量特征和数量关系的图形2.4.2类型常见统计图的有线状图、直条图、饼状图和散点图。1、线状图是以坐标系中曲线的形状、斜率变化,位置高低等来表现统计资料。线状图可以形象、直观地显示出事物的变化发展趋势。研究对象中不同的各组可以用不同颜色或线型的线条表示。CompanyLogo2、直条图是在直角坐标系中,用相同宽度长条的不同长短来表示数量资料的多少,还可在同一张图表中用不同颜色或阴影的条形表示研究对象中不同的各组,能直观地进行数量多少的对比。3、饼状图是以圆形代表研究对象的整体,用以圆心为共同顶点的各个不同扇形显示各组成部分在整体中所占的比例,要注明各扇形所代表的项目的名称(可用图例表示)及其所占百分比。4、散点图是在坐标系中点出各个分析数据的相关位置,直观地显示出一组数据的分布情况。CompanyLogo2.4.3统计图的结构CompanyLogo•1、图题和图号:图题是说明统计图内容的标题或名称;图号是统计图的编号。•2、图目:也称标目,是指说明纵轴、横轴所代表的类别、时间、地点、单位等方字或数字。•3、图线:指构成统计图的各种线,如:基线、指导线、图示线、破格线等。•4、图尺:也称尺度,是指在统计图中测定指标数值大小的尺度,包括:尺度线、尺度点、尺度数和尺度单位。•5、图形:是据市场调研资料用图示线绘成的曲线、条形或平面、立体图形。•6、图注:是指统计图的注解和说明,包括:图例、资料来源、说明等。•7、其他:指为了增强图示效果而在图形上附加插图、装饰等。CompanyLogoCompanyLogoCompanyLogoCompanyLogo2.5描述性统计指标2.5.1描述性统计分析描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。2.5.2描述性统计指标1.标志和指标(1)标志--说明总体单位特征的名称。例如以职工为总体单位时,性别、年龄、工资等都是每个职工具有的标志。CompanyLogo标志按其表现形式有品质标志与数量标志两种。--品质标志表明的是总体单位的属性特征,是不能用数量表示的。例如职工的性别、文化程度等。--数量标志表明的是总体单位的数量特征,是可以用数量表现的。例如职工的年龄、工资等。标志的具体表现是指在标志名称后面所表明的属性或数值。--如某职工性别是男,文化程度是大学毕业,这里的“男”、“大学毕业”分别是品质标志“性别”和“文化程度”的属性。--某职工的年龄是40岁,40岁就是数量标志“年龄”的数值表现,称标志值。CompanyLogo(2)指标统计指标的简称。---统计指标是反映总体现象数量特征的概念。例如国内生产总值、居民消费水平等;---统计指标是反映总体现象数量特征的概念和具体数值。例如l998年我国国内生产总值为79395亿元。对统计指标涵义的两种理解都可以成立,前一种理解适用于统计理论和统计设计,后一种理解适用于实际统计工作。CompanyLogo2.平均指标(1)含义:又称统计平均数,用以反映社会经济现象总体各单位某一数量标志在一定时间、地点条件下所达到的一般水平的综合指标。(2)平均指标的特点把总体各单位标志值的差异抽象化了;平均指标是个代表值,代表总体各单位标志值的一般水平。CompanyLogo(3)平均指标的种类算术平均数、调和平均数、几何平均数、众数和中位数。前三种平均数是根据总体所有标志值计算的所以称为数值平均数,后两种平均数是根据标志值所处的位置确定的,因此称为位置平均数。CompanyLogo(4)平均指标的作用主要表现在:--可以反映总体各单位变量分量分布的集中趋势;--可以用来比较同类现象在不同单位发展的一般水平;--用来比较同一单位的同类指标在不同时期的发展状况;--可以用来分析现象之间的依存关系等CompanyLogo(5)具体指标A算术平均数算术平均数是计算平均指标的最常用方法,是所有数据的总和除以总频数所得的商,简称平均数或均数。算术平均数有两种形式:即简单算术平均数和加权算术平均数。--简单算术平均数是将各单位的(标志)值直接相加得出(标志)总量数,再除以总体单位数neg.p50,教材未明确简单算术平均数的感念CompanyLogoB--加权算术平均数加权算术平均数是将各组标志值乘以相应的各组单位数(权数)求出各组标志总量,然后将其加总求得总体标志总量,同时把各组单位数或权数相加求出总体单位总量,最后用总体标志量除以总体单位总量。如果资料已经分组,则不能简单地将各组标志值相加作为总体总量,而应用此法计算其平均数。eg.P51各组标志值=组中值各组别上下限之间的中点数值,以代表各组标志值的一般水平。组中值=(上限+下限)÷2缺上限组的组中值=下限+(相邻组组距÷2)缺下限组的组中值=上限-(相邻组组距÷2)CompanyLogoCompanyLogoC调和平均数调和平均数又称倒数平均数,是变量倒数的算术平均数的倒数。未分组资料分组资料CompanyLogo例:水果甲级每元1公斤,乙级每元1.5公斤,丙级每元2公斤。问:(1)若各买1公斤,平均每元可买多少公斤?(2)各买6.5公斤,平均每元可买多少公斤?(3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买几公斤?(4)甲乙丙三级各买1元,每元可买几公斤?CompanyLogo3名学生参加一项学习实验,结果如下表:学习任务所用时间相同而学习工作量不同的平均速度:1231126.0869(/1111111111()*(.....)()3402050hniNMNXXXXX页时)402025=28.333X单位时间工作量单位时间工作量CompanyLogoD几何平均数一列数据中,相邻的两个数据成比例关系(环比),且非常接近一个常数;数列中出现极端值,数据分布偏态;等距(比较)和等比(比例)量表的数据处理;此时用算术平均数无法反应集中趋势。--几何平均数是n个变量值连乘积的n次方根。--几何平均数多用于计算平均比率和平均速度。如:平均利率、平均发展速度、平均合格率等。CompanyLogo类型:--简单几何平均数简单几何平均数是n个变量值连乘积的n次方根。CompanyLogo例如生产某产品需连续经过4道工序,根据经验,各道工序的合格率分别为98%、95%、92%、90%,求该产品4道工序的平均合格率CompanyLogo--加权几何平均数加权几何平均数是统计学中的一种动态平均指标,多是指社会经济现象的同质总体在时间上变动速度的平均数。加权几何平均数是各标志值fi次方的连乘积的次方根。CompanyLogo例如,投资银行某笔投资的年利率是按复利计算的,10年的年利率分配是:第1年至第2年为5%;第3年至第5年为8%;第6年至第8年为10%;第9年至第10年为12%,求平均年利率。CompanyLogo分解:设本金为一个单位x则第一年本息第二年本息第三年本息第四年本息第10年本息10年平均年本息10年平均年利息1(10.05)*11.05CI221.05(10.05)1.05CI2231.05*(10.08)1.05*1.08CI22241.05*1.08*1.081.05*1.08CI2332101.05*1.08*1.1*1.12CI102332101.05*1.08*1.1*1.12CI1023321.05*1.08*1.1*1.121IXCompanyLogo如果不按复利计算,平均年利率是多少?解:设本金为C,则:平均年利率=平均利息/本金5.8%CompanyLogoE中位数中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据。用Me表示。从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数。中位数的作用与算术平均数相近,也是作为所研究数据的代表值。在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。CompanyLogo对于未分组的原始资料首先必须将标志值按大小排序。设排序的结果为:则中位数就可以按下面的方式确定:CompanyLogo由分组资料确定中位数由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式确定中位数。CompanyLogo例如,根据下表的数据,计算50名工人日加工零件数的中位数。向上累计频数分布由标志值低的组向标志值高的组依次累计频数。向下累计频数分布由标志值高的组向标志值低的组依次累计频数。CompanyLogo由上表可知,中位数的位置=50/2=25,即中位数在120~125这一组,L=120,Sm−1=16;U=125,Sm+1=20,fm=14,d=5,根据中位数公式得:LSm-1USm+1CompanyLogoCompanyLogo缺点:中位数不够灵敏;优点:中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性。CompanyLogoF众数众数是指一组数据中出现次数最多的那个数据,一组数据可以有多个众数,也可以没有众