统计学知识点整理

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

-1-第1章统计学导论1、统计学�收集、处理、分析、解释数据并从数据中得出结论的科学�其目的是探索数据的内在数量规律性�以达到对客观事物的科学认识。2、�1�数据搜集�例如�调查与试验�2�数据整理�例如�排序、分组�3�数据展示�例如�图和表�4�数据分析�例如�回归分析3、统计学的分科�描述统计、推断统计、理论统计、应用统计4、统计数据的类型�按计量尺度划分分类尺度�分类数据顺序尺度�顺序数据间隔尺度�数值型数据比率尺度�数值型数据5、数据类型与统计方法分类数据�品质数据顺序数据�品质数据数值型数据�数量数据6、统计数据类型按计量尺度�分类数据、顺序数据、数值型数据按收集方法�观测数据、实验数据按时间状况�截面数据、时序数据7、统计学中的基本概念�P7��1�总体�是包含所研究的全部个体�数据�的集合�它通常由所研究的一些个体组成�如由多个企业构成的集合�多个居民户构成的集合�多个人构成的集合�等等。�个体�组成总体的每一个元素。如�由多个人构成的总体中�每一个人就是一个个体。��2�样本�是从总体中抽取的一部分元素的集合�构成样本的元素的数目称为样本量。�如�从一批灯泡中随机抽取100个�这100个灯泡就构成了一个样本。��3�参数�是用来描述总体特征的概括性数字度量�它是研究者想要了解的总体的某种特征值。�4�统计量�是用来描述样本特征的概括性数字度量。�如�样本平均数用x表示�样本标准差用s表示�样本比例用p表示。�-2-�5�变量�是说明现象某种特征的概念�其特点是从一次观察到下一次观察结果会呈现出差别或变化。�如�商品的销售额、受教育程度、产品的质量级别�μ平均数xσ标准差sπ比例p8、例�指出下面分别是哪种数据类型�1�年龄�连续性变量��2�性别。�分类变量��3�汽车产量。�数值型变量��4�员工对企业某项改革措施的态度�赞成、中立、反对��顺序变量��5�购买商品时的支付方式�现金、信用卡、支票��分类变量�9、例题�一项调查表明�消费者每月在网上购物的平均花费是200元�他们选择在网上购物的主要原因是“价格便宜”。回答以下问题��1�这一研究的总体是什么��在网上购物的消费者��2�“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量��分类变量��3�研究者所关心的参数是什么��所有在网上购物消费者的平均花费��4�“消费者每月在网上购物的平均花费是200元”是参数还是统计量��统计量��5�研究所使用者的主要是描述统计方法还是推断统计方法��推断统计方法�第2章数据的搜集1、数据的直接来源——一手资料�调查和实验�调查的方式�普查、抽样调查、统计报表……2、数据的间接来源——二手资料�如�统计公报、统计年鉴、网上资料、期刊、杂志、报纸等�总体样本参数统计量-3-3、概率抽样�也称随机抽样�指遵循随机原则进行的抽样�总体中每个单位都有一定的机会被选入样。�1�简单随机抽样�①抽签法②随机数表法�2�分层抽样�分层抽样法适用于总体中个体差异明显的抽样��3�整群抽样�将总体中若干个单位合并为组�这样的组称为群��4�系统抽样�5�多阶段抽样4、非概率抽样�1�方便抽样�依据方便原则�自行确定入抽样本��2�判断抽样�根据经验、判断、对研究对象的了解�有目的地抽样��3�自愿样本�自愿参加��4�滚雪球抽样�针对特定稀少群体的研究��5�配额抽样�先分类�在每类中用方便抽样或判断抽样选取样本�5、概率抽样与非概率抽样的比较概率抽样�遵循随机原则�样本可以对总体进行估计�计算估计误差、置信区间�技术含量高、成本较高�适合用于验证问题作进一步的数量分析。非概率抽样�不依据随机原则�样本无法对总体估计�不计算估计误差、置信区间�操作简便、时效快、成本低、前期发现问题。6、搜集数据的基本方法�自填式、面访式、电话式、观察法、试验法。7、数据的误差�1�抽样误差�由于抽样的随机性引起的样本结果与总体真值之间的误差。�——只在概率抽样中�不能避免�但能控制��2�非抽样误差�除抽样误差之外的�由于其他原因引起的样本观察结果与总体真值之间的差异。�——存在于任何抽样或调查中�除了抽样框误差都可避免�①抽样框误差②回答误差③无回答误差④调查员误差⑤测量误差�3�误差的控制。-4-第3章数据的整理与图表展示3.1数据的预处理1.数据审核:发现数据中的错误2.数据筛选:找出符合条件的数据3.数据排序发现数据的基本特征、升序和降序【例3.1】表3-1是8名学生4门课程的考试成绩数据�单位�分�。试找出�1�统计学成绩等于80分的学生�2�数学成绩最高的前三名学生�英语成绩最低的三名学生�3�统计学成绩在80-90之间的学生�4�四门课程成绩都大于70分的学生数据排序1.分类数据的排序�字母型数据�排序有升序降序之分�但习惯上用升序�汉字型数据�可按汉字的首位拼音字母排列�也可按笔画排序�其中也有笔画多少的升序降序之分2.数值型数据的排序3.2品质数据的整理与展示3.2.1分类数据的整理与图示�一�步骤�1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形展示�二�分类数据中需要计算的指标�1.频数�落在各类别中的数据个数频数分布�把各个类别及落在其中的相应频数全部列出�并用表格形式表现出来。2.比例�某一类别数据占全部数据的比值3.比�将对比的基数作为100而计算的比值-5-4.比率�不同类别数值之间的比值【例3.3】一家市场调查公司为研究不同品牌饮料的市场占有率�对随机抽取的一家超市进行调查。调查员在某天对50名顾客购买饮料的品牌进行了记录�如果一个顾客购买某一品牌的饮料�就将这一饮料的品牌名字记录一次。数据见Excel表。要求�对数据进行整理�求不同品牌饮料的频数分布、比例和百分比。【例3.4】为研究广告市场的状况�一家广告公司在某城市随机抽取100人就广告问题做了邮寄问卷调查�其中的一个问题是“您比较关心下列哪一类广告�”1�商品广告�2�服务广告�3�金融广告�4�房地产广告�5�招生招聘广告�6�其他广告。要求�计算各类广告的频数、比例、百分比。画出频数分布表、柱形图、饼图。�三�分类数据的图示1、条形图条形图是用宽度相同的条形的高度或长短来表示数据多少的图形★各类别可以放在纵轴�称为条形图�也可以放在横轴�称为柱形图★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化条形图4722998501020304050商品广告服务广告金融广告房地产广告招生招聘广告其他广告频数-6-2、饼图1.饼图�用圆形及圆内扇形的面积来表示数值大小的图形。2.主要用于表示总体中各组成部分所占的比例�对于研究结构性问题十分有用3.在绘制圆形图时�总体中各部分所占的百分比用圆内的各个扇形面积表示�这些扇形的中心角度�是按各部分百分比占3600的相应比例确定的3、环形图1.环形图中间有一个“空洞”�总体中的每一部分数据用环中的一段表示2.环形图与圆形图类似�但又有区别–圆形图只能显示一个总体各部分所占的比例–环形图则可以同时绘制多个总体的数据系列�每一个总体的数据系列为一个环3.环形图可用于进行比较研究4.环形图可用于展示分类数据和顺序数据图3-4甲乙两城市家庭对住房状况的评价非常不满意不满意一般满意非常满意图3-4甲乙两城市家庭对住房状况的评价三维饼图47%22%9%9%8%5%商品广告服务广告金融广告房地产广告招生招聘广告其他广告8%36%31%15%7%33%26%21%13%10%-7-3.2.2顺序数据的整理与图示1.累积频数�将各有序类别的频数逐级累加起来得到的频数。�向上累积�从类别顺序的开始一方�向类别顺序的最后一方累加频数��向下累积�从类别顺序的最后一方�向类别顺序的开始一方累加频数。2.累积频率�将各类别的百分比逐级累加。【例3.5】在一项城市住房问题的研究中�研究人员在甲乙两个城市各抽样调查300户�其中的一个问题是�“您对您家庭目前的住房状况是否满意�1�非常不满意�2�不满意�3�一般�4�满意�5�非常满意。甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.0————乙城市家庭对住房状况评价的频数分布-8-回答类别乙城市户数(户)百分比(%)向上累积向下累积户数(户)百分比(%)户数(户)百分比(%)非常不满意不满意一般满意非常满意209812040226.732.74013.37.3合计300100.0————243001322252700100200300400非常不满意不满意一般满意非常满意累积户数�户�(a)向上累积27616830300750100200300400非常不满意不满意一般满意非常满意累积户数�户�(b)向下累积甲甲城城市市家家庭庭对对住住房房状状况况评评价价的的累累积积频频数数分分布布图图-9-3.3数值型数据的整理与显示3.3.1数据的分组�一�单变量值分组�要点�★适合于离散变量★适合于变量值较少的情况步骤�1、排序2、将一个变量值作为一组【例3.6】某生产车间50名工人日加工零件数如下�单位�个�。试采用单变量值对数据进行分组。117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121解�某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107108110112113121211191201211221231214412812913013113321112分组方法单变量值分组组距分组等距分组异距分组-10-114115117118113312412512612732231341351371392112(二)组距分组1、要点�适合于连续变量�适合于变量值较多的情况�将变量值的一个区间作为一组�可采用等距分组�也可采用不等距分组2、组距分组�几个概念�1.下限�一个组的最小值2.上限�一个组的最大值3.组距�上限与下限之差4.组中值�下限与上限之间的中点值3、组距分组步骤第1步�排序�确定组数�K�5≤K≤15lg1lg2nK��能够显示数据的分布特征和规律第2步�确定组距组距��最大值�最小值�÷组数★组距宜取5或10的倍数◆第一组的下限应低于最小值�◆最后一组的上限应高于最大值。遵循“不重不漏”的原则上组限不在内第3步�根据分组整理成频数分布表下下限限值值++上上限限值值22组组中中值值��-11-等距分组表�上下组限间断�等距分组表�上下组限间断�等距分组表�上下组限间断�10050合计610162820128358141064105~109110~114115~119120~124125~129130~134135~139频率�%�频数�人�等距分组表�上下组限间断�等距分组表�上下组限间断�等距分组表�上下组限间断�等距分组表�上下组限间断�10050合计610162820128358141064105~109110~114115~119120~124125~129130~134135~139频率�%�频数�人�等距分组表�上下组限间断�等距分组表�上下组限间断�等距分组表�上下组限重叠�10050合计610162820128358141064105~110110~115115~120120~125125~130130~135135~140频率�%�频数�人�按零件数分组表3-5某车间50名工人日加工零件数分组表10050合计610162820128358141

1 / 60
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功