贾俊平第六版统计学课后思考题答案——张云飞

zzqvagrant
1 ℃
2019-10-13

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第一章导论1.什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。2.解释描述统计和推断统计描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的统计方法。3.统计数据可以分为哪几种类型？不同类型的数据各有什么特点？分类数据：是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。顺序数据：是只能归于某一有序类别的非数字型数据。虽然也有列别，但这些类别是有序的。数值型数据：是按数字尺度测量的观察值，其结果表现为具体的数值。4.解释分类数据、顺序数据和数值型数据的含义分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述的，其结果均表现为类别，因此也可统称为定性数据或品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此也可称为定量数据或数量数据。5.举例说明总体、样本、参数、统计量、变量这几个概念总体是包含所研究的全部个体（数据）的集合；样本是从总体中抽取的一部分元素的集合；参数是用来描述总体特征的概括性数字度量；统计量是用来描述样本特征的概括性数字度量；变量是说明现象某种特征的概念。比如我们欲了解某市的中学教育情况，那么该市的所有中学则构成一个总体，其中的每一所中学都是一个个体，我们若从全市中学中按某种抽样规则抽出了10所中学，则这10所中学就构成了一个样本。在这项调查中我们可能会对升学率感兴趣，那么升学率就是一个变量。我们通常关心的是全市的平均升学率，这里这个平均值就是一个参数，而此时我们只有样本的有关升学率的数据，用此样本计算的平均值就是统计量。6.变量可以分为哪几类分类变量：一个变量由分类数据来记录就称为分类变量。顺序变量：一个变量由顺序数据来记录就称为顺序变量。数值型变量：一个变量由数值型数据来记录就称为数值型变量。离散变量：可以取有限个值，而且其取值都以整位数断开，可以一一例举。连续变量：可以取无穷多个值，其取值是连续不断的，不能一一例举。（当离散变量的取值很多时，也可以将离散变量当作连续变量来处理）7.举例说明离散型变量和连续性变量离散型变量，只能取有限个值，取值以整数位断开，比如“企业数”。连续型变量，取之连续不断，不能一一列举，比如“温度”。8.请列举出统计应用的几个例子人口普查，商场民意调查等。9.请列举出应用统计的几个领域国民经济核算与研究；市场调查分析；社会公共事业统计领域；金融市场领域等第二章数据的收集1.什么是二手资料？使用二手资料应注意什么问题二手资料：与研究内容有关、由别人调查和试验而来、已经存在并会被我们利用的资料。问题：使用时要进行评估，要考虑到资料的原始收集人、收集目的、收集途径、收集时间且使用时要注明数据来源。2.比较概率抽样和非概率抽样的特点，指出各自适用情况概率抽样：也称为随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。当用样本对总体目标量进行估计时，要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征，得到总体参数的置信区间，就使用概率抽样。非概率抽样：指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。操作简单，时效快，成本低，而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究，调查结果用于发现问题，为更深入的数量分析提供准备。它同样使用市场调查中的概念测试（不需要调查结果投影到总体的情况）。3.除了自填式，面访式和电话式还有什么搜集数据的办法试验式和观察式等4.自填式、面访式、电话式调查各有什么利弊自填式优点：调查组织者管理容易；成本低，可进行大规模调查；减少被调查者回答敏感问题压力。缺点：返回率低；不适合结构复杂的问卷，调查内容有限；调查周期长；在数据搜集过程中遇见问题不能及时调整。面访式优点：回答率高；数据质量高；在调查过程中遇见问题可以及时调整。缺点：成本比较高；搜集数据的方式对调查过程的质量控制有一定难度；对于敏感问题，被访者会有压力。电话式优点：速度快；对调查员比较安全；对访问过程的控制比较容易。缺点：实施地区有限；调查时间不能过长；使用的问卷要简单；被访者不愿回答时，不易劝服。6.如何控制调查中的回答误差对于理解误差，我会去学习一定的心理学知识；对于记忆误差，我会尽量去缩短所涉及的时间范围；对于有意识误差，我要做好被调查者的心理工作，要遵守职业道德，为被调查者保密，尽量在问卷中不涉及敏感问题。7.怎样减少无回答对于随机误差，要提高样本容量；对于系统误差，只有做好准备工作并做好补救措施。比如说要一百份的问卷回复，就要做好一百二十到一百三十的问卷准备，进行面访式的时候要尽量的劝服不愿意回答的被访者，以小物品的馈赠提高回复率。第三章数据的图表展示1.数据预处理包含哪些内容数据审核（对于原始数据：完整性和准确性；对于二手数据：适用性和时效性），数据筛选和数据排序。2.分类数据和顺序数据的整理和图示方法各有哪些分类数据：制作频数分布表，用比例（部分与整体比值）、百分比（比例乘100%）、比率（不同类别之间比值）等进行描述性分析。可用条形图、帕累托图、饼图和环形图进行图示分析。顺序数据：制作频数分布表，用比例，百分比，比率。累计频数和累计频率等进行描述性分析。可用条形图，帕累托图和饼图，累计频数分布图和环形图进行图示分析。3.数值型数据的分组方法和组距分组的步骤分组方法：单变量值分组和组距分组，组距分组又分为等距分组和异距分组。分组步骤：1确定组数（5-15）；2确定各组组距；3根据分组整理成频数分布表。4.直方图和条形图的区别条形图使用图形的长度表示各类别频数的多少，其宽度固定；直方图用面积表示各组频数，矩形的高度表示每一组的频数或频率，宽度表示组距。直方图各矩形连续排列，条形图分开排列。条形图主要展示分类数据；直方图主要展示数值型数据。5.绘制线图应注意哪些问题时间在横轴，观测值绘在纵轴。一般是长宽比例10：7的长方形，纵轴下端一般从0开始，数据与0距离过大的话用折断符号折断。6.饼图和环形图有什么不同饼图只能显示一个样本或总体各部分所占比例，环形图可以同时绘制多个样本或总体的数据系列，其图形中间有个“空洞”，每个样本或总体的数据系类为一个环。7.茎叶图比直方图的优势，他们各自的应用场合茎叶图既能给出数据的分布情况，又能给出每一个原始数据，即保留了原始数据的信息。在应用方面，直方图通常适用于大批量数据，茎叶图适用于小批量数据。8.鉴别图标优劣的准则显示数据；精心设计，有助于洞察问题的本质；使复杂的观点得到简明、确切、高效的阐述；能在最短的时间内以最少的笔墨给读者提供大量的信息；多维的；表述数据的真实情况。9.制作统计表应该注意哪几个问题合理安排统计表结构；表头一般包括表号，总标题和表中数据的单位等内容；表中的上下两条横线一般用粗线，中间的其他用细线；在使用统计表时，必要时可在下方加注释，注明数据来源。第四章数据的概括性度量1.一组数据的分布特征可以从哪几个方面进行测度分布的集中趋势：反映各数据向其中心值靠拢或集中的程度；分布的离散程度，反映各数据远离其中心值的趋势；分布的形状，反映数据分布的偏态和峰态。2.怎样理解平均数在统计学中的地位平均数在统计学中具有重要的地位，是集中趋势的最主要的测度，主要适用于数值型数据，而不适用于分类数据和顺序数据。3.简述四分位数的计算方法四分位数是一组数据排序后处于25%和75%位置上的值。根据未分组数据计算四分位数时，首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数。4.对于比率数据的平均为什么采用几何平均在实际应用中，对于比率数据的平均采用几何平均要比算数平均更合理。从公式(𝟏+𝑮)𝒏=∏𝟏+𝑮𝒊𝒏𝒊=𝟏中也可看出，G就是平均增长率。5.简述众数、中位数和平均数的特点和应用场合众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。众数只有在数据量较多时才有意义，数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值，不受极端值的影响。当数据的分布偏斜较大时，使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。平均数对数值型数据计算的，而且利用了全部数据信息，在实际应用中最广泛。当数据呈对称分布或近似对称分布时，三个代表值相等或相近，此时应选择平均数。但平均数易受极端值的影响，对于偏态分布的数据，平均数的代表性较差，此时应考虑中位数或众数。6.简述异众比率、四分位差、方差或标准差的适用场合对于分类数据，主要用异众比率来测量其离散程度；对于顺序数据，虽然也可以计算异众比率，但主要使用四分位差来测量其离散程度；对于数值型数据，虽然可以计算异众比率和四分位差，但主要使用方差或标准差来测量其离散程度。7.标准分数有哪些用途标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时，常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。8.为什么要计算离散系数方差和标准差是反映数据分散程度的绝对值，一方面其数值大小受原变量值本身水平高低的影响，也就是与变量的平均数大小有关；另一方面，它们与原变量的计量单位相同，采用不同计量单位的变量值，其离散程度的测度值也就不同。因此，为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。9.测度数据分布形状的统计量有哪些对分布形状的测度有偏态和峰态。测度偏态的统计量是偏态系数，测度峰态的统计量是峰态系数。第五章概率与概率分布1.频率与概率有什么关系在相同条件下随机试验n次，某事件A出现m次，则比值m/n称为事件A发生的频率。随着n的增大，该频率围绕某一常数p波动，且波动幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率。2.独立性与互斥性有什么关系互斥事件一定是相互依赖（不独立）的，但相互依赖的事件不一定是互斥的。不互斥事件可能是独立的，也可能是不独立的，但独立事件不可能是互斥的。3.根据自己的经验体会举几个服从泊松分布的随机变量的实例如某种仪器每月出现故障的次数、一本书一页中的印刷错误、某一医院在某一天内的急诊病人数等4.根据自己的经验体会举几个服从正态分布的随机变量的实例如某班某次的考试成绩、某地区成年男性的身高、某公司年销售量、同一车间产品的质量等第六章统计量及其抽样分布1.什么是统计量？为什么要引进统计量？统计量为什么不含任何未知参数统计量：设𝑋1,𝑋2,…,𝑋𝑛是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数T(𝑋1,𝑋2,…,𝑋𝑛)，不依赖于任何未知参数，则称函数T(𝑋1,𝑋2,…,𝑋𝑛)是一个统计量。原因：由样本构造具体的统计量，实际上是对样本所有的总体信息按某种要求进行加工处理，把分撒在样本信息集中到统计量的取值上，因此统计推断问题就由样本信息推断总体特征转变为由样本构成的统计量推断总体参数，而且对于不同的统计推断问题可以根据同一样本构造不同的统计量进行研究。由于样本已经抽出，所以统计量总是知道的，故统计量不含任何未知参数。3.什么是次序统计量设𝑋1,𝑋2,…,𝑋𝑛是从总体X中抽取的一个样本，𝑋(𝑖)称为第𝑖个次序统计量，它是样本(𝑋1,𝑋2,…,𝑋𝑛)满足如下条件的函数：每当样本得到一组观察值𝑥1,𝑥2…,𝑥𝑛时，其由小到大的排序𝑥(1)≤𝑥(2)≤⋯≤𝑥(𝑖)≤⋯≤𝑥(𝑛)中，第𝒊个值𝒙(𝒊)就作为次序统计量𝑿(𝒊)的观测值，而𝑋(1),𝑋(2),…,𝑋(𝑛)称为次序统计量。其中，𝑿(𝟏)和𝑿(𝒏)分别为最小和最大次序统计量。4.什么是充分统计量统计量加工过程中一点信息都不损失的统计量为充分统计量5.什么是自由度自由度指的是计算某一统计量时，取值不受限制的变量个数。通常𝑑𝑓=𝑛−𝑘。其中𝑛为样本数量，𝑘为被限制的条件数