chapter4统计分析软件应用

yen67123
1 ℃
2020-01-11

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

计算机在药学中的应用沈阳药科大学计算中心董鸿晔4统计分析软件应用(1)本章主要介绍统计分析的一些基本概念，以及一些统计方法。基础分析检验分析相关与回归方差分析其他分析工具描述统计z-检验协方差单因素分析移动平均直方图F检验相关系数可重复双因素分析指数平滑排位于百分比排位t-检验：双样本等方差假设回归分析无重复双因素分析傅立叶分析随机数发生器t-检验：双样本异方差假设抽样分析t-检验：平均值的成对二样本分析Exce12002的统计分析工具包一共包括19个工具，按照其工作原理和应用范围的不同，大致可以分成5大类：数据分析工具的调用工具/加载宏选中分析工具库等确定再打开工具菜单即可数据分析工具对话框4.1实验数据的简单统计4.1.1统计学的基本概念1．基本概念在统计学中，研究对象的总体称为总体，构成总体的每一个对象称为个体。从总体X中随机抽取n个个体X1，X2，……，Xn，这n个个体就构成了X的样本，其中个体的数目n称为样本容量以上从总体中抽取样本的过程就称为抽样。样本具有代表性和独立性的抽样称为简单随机抽样。用数学语言表达就是：简单随机抽样的样本Xi与X同分布且样本容量与总体中个体数量相比很小。基于样本而构造的、不含任何未知参数的、用于推断总体特征的参数称为统计量。统计量本身是一个随机变量，它的值可以通过对样本值的计算而得到。统计量的分布称为抽样分布。经常用到的统计量有样本均值、样本方差和样本标准差。2．常用统计量（1）样本均值定义样本ｋ阶原点矩：则，一阶原点矩为样本均值，记作：（2）样本方差S2定义样本k阶中心矩：则，修正样本二阶中心矩为样本方差，记作：（3）样本标准差S样本方差的平方根为样本标准差。在统计学中，一般惯例是用希腊字母μ、σ2表示整体参数，而用罗马字母X、S2表示样本统计量，应用中要注意区别。3．统计量与抽样分布在统计学中，经常用到的抽样分布有4种，分别是：标准正态分布、ｘ2分布、t分布、F分布，对应的有一组统计量。这里简单介绍这些统计量的定义。对于总体X～N（μ,σ2），｛Xi｝为取自该总体的样本。（1）标准正态分布：当μ、σ2均己知时，统计量(2)x2分布（读做卡方分布）：当μ=0，σ2=1时，统计量t分布：设X～N（0，1），Y～x2（n），X、Y相互独立，则统计量F分布：设X～x2（n1），Y～x2（n2），X、Y相互独立，则统计量4．抽样分布基本定理对于总体Ｘ～Ｎ（μ,σ2），｛Ｘi｝为取自该总体的样本，则（1）（2）（3）X与S2相互独立。由以上各定理可以得出：对于总体X～N（μ1,σ12）、Y～N（μ2,σ22），｛Xi｝、〔Yj〕为分别取自其中的样本，且两组样本相互独立，则当σ12=σ22，记则有4.1.2统计估值⒈统计估值的基本概念根据取自总体的样本对总体特征进行推断，具体地讲，就是要对一些与总体有关的未知参数进行准确推断，从而掌握总体的分布规律。推断未知参数可以分别求其近似值或近似范围，前者称为点估计，后者称为区间估计。2．点估计及其评价期望和方差是总体X最重要的数字特征，因此，很自然地利用样本{X}的均值X和样本方差S2分别作为总体期望μ与方差σ2的估计。3．常用区间估计公式．根据抽样分布定理，对于给定的置信度+a，可以推导出如下的区间估计公式：（1）单正态总体期望的区间估计对于期望的估计，根据σ2是否已知，分别使用Z统计量和T统计量。（2）单正态总体方差的区间估计对于方差的估计，使用x2统计量。（3）二正态总体均值差的区间估计其中：其中：（4）二正态总体方差比的区间估计4.２基础分析第一组分析工具包括“描述统计”、“直方图”、“排位与百分比排位”、“随机数发生器”和“抽样分析”。这组工具用于对数据进行一般性分析，如基本统计量的综合计算、数据频率与排位的计算、设计抽样方案等。4.2.1描述统计（例4-1）某医院用中药治疗青光眼的试验中一些患者眼压的变化，用“描述分析”对这组数据进行基本的统计分析“描述统计”分析工具用于生成源数据区域中数据的单变量统计分析报表，提供有大数据趋中性和离散性的综合信息。从“分析工具”对话框中选择“描述统计”，打开“描述统计”对话框，根据需要填写各项目，按“确定”按钮，即可执行“描述统计”。选项解释输入区域：在此输入待分析数据区域的单元格引用。该引用必须由两个或两个以上按列或行排列的相邻数据区域组成。本例中选择眼压和人数两列：Bl∶C17。分组方式：单击“逐行”或“逐列”指明输入区域中的数据是按行还是按列排列。由于本例中数据按列排列，所以选“逐列”。标志位于第一行／标志位子第一列：如果输入区域的第一行（或第一列）中包含标志项，选中“标志位于第一行”（或“标志位于第一列”）复选框。如果输入区域没有标志项，清除该复选框，Excel2002将在输出表中生成适宜的数据标志。本例中数据列的上方第一行有“眼压”、“人数”的标志，所以应选中此项。平均数置信度：如果需要在输出表中包含平均值的置信度，请选中此复选框。在右侧的框中，输入所要使用的置信度数值。由于在统计中一般常用95％的置信度，所以本例中也取此值。第k大值：如果需要在输出表中包含每个数据区域中的第k个最大值，请选中此复选框。在右侧的框中，输入k的数字。如果输入1，则该行将包含数据集中的最大值。由于“描述统计”工具会自动返回最大和最小值，所以本例中此项取2，要求返回第2大值。第k小值：如果需要在输出表中包含每个数据区域中的第k个最小值，请选中此复选框。在右侧的框中，输入k的数宇。如果输入1，则该行将包含数据集中的最小值。同上，这里输入2。输出区域：在此输入对输出表左上角单元格的引用。此工具将为每个数据集产生两列信息。左边一列包含统计标志，右边一列包含统计值。根据所选择的“分组方式”选项，Excel将为输入区域中的每一行或每一列生成一个两列的统计表。本例中选择紧靠数据列的区域D1∶G18。新工作表组：选中此选项可在当前工作簿中插入新工作表，并从新工作表的Al单元格开始粘贴计算结果。若要为新工作表命名，请在右侧的框中键入名称。本例中按区域输出，故此项不选。新工作簿：选中此选项可创建一新工作簿，并在新工作簿的新工作表中粘贴计算结果。本例中按区域输出，故此项不选。汇总统计：如果需要Exce1在输出表中为下列每个统计结果生成一个字段，请选中此复选框。这些统计结果有：平均值、标准误差（相对于平均值）、中值、众数、标准偏差、方差、峰值、偏度、极差（全距）、最小值、最大值、总和、总个数、最大值（#）、最小值（#）和置信度。本例中选中此项。[本例完]4.2.2直方图（例4-2）所谓的“直方图”工具，可以用来计算数据的频度分布。已知某班级学生测验成绩（5分制），用“直方图”工具对其进行频度分析。选项解释输入区域：在此输入待分析数据区域的单元格引用。(A2:A17)接收区域（可选）：即频度分析的分组标志数值。在此输入接收区域的单元格引用，该区域包含一组用来定义接收区域的边界值，这些值要按升序排列。Exce1将统计每两个相临边界值之间的数据点个数（如果存在）。如果数据值小于等于边界值，则该值将被归到前一个分组区域中进行计数。所有小于第一个边界值的数据值将一并计数，同样所有大于最后一个边界值的数值也将一并计数。(如果省略此处的接收区域，Exce1将自动在数据的最小值和最大值之间创建一组均匀分布的接收区间。)(B2:B6)标志：如果输入区域的第一行或第一列中包含标志项，选中此复选框。如果输入区域没有标志项，清除此复选框，Excc1将自动在输出表中生成适宜的数据标志。输出区域：在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖已有的数据，Exce1会自动调整输出区域的大小和位置并显示一则消息。新工作表组、新工作簿：含义同上一小节。柏拉图：选中此复选框可在输出表中按降序来显示数据。如果清除此复选框，将只按升序来显示数据并省略结果中右边包含降序排序的三列数据。累积百分率：选中此复选框可在输出表中生成一列累积百分比值，并在直方图中包含一条累积百分比线。清除此选项，则会省略累积百分比。图表输出：选中此复选框可在输出表中生成一个嵌入直方图。[本例完]4.2.3排位与百分比排位(例4-3)“排位与百分比排位”分析工具可以产生一个数据表，在其中包含数据集中各个数值的顺序排位和百分比排位。该工具用来分析数据集中各数值间的相对位置关系。已知某班级考试成绩（百分制），用排位和百分比排位工具对其进行分析。选项解释排位工具中只需要指定输入、输出的区域，没有太多其他选顼。输入区域：(B2:B17)分组方式：单击“行”或“列”指定输入区域中的数据是按行还是按列排列。（列）标志位于第一行／标志位于第一列：如果输入区域的第一行或第一列中包含标志项，选中此复选框。如果输入区域没有标志项，清除此复选框，Excc1将自动在输出表中生成适宜的数据标志。输出区域：在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖己有的数据，Exce1会自动调整输出区域的大小和位置并显示一则消息。(D1)新工作表组、新工作簿：含义同上一小节中的相同项目。[注意与排序比较一下][本例完]4.2.4随机数发生器（例4-4）在实际的统计工作中，经常需要按照某些要求随机生成一组数据。在Exce1中，用RAND和RANDBETWEEN函数可以在指定范围内生成单个的随机数，此外，在“数据分析”工具包中还专门提供了一个“随机数发生器”，用于生成符合指定条件的一组或几组随机数。下面具体说明它的使用。从“数据分析”对话框中选择“随机数发生器”，打开对话框(本例不需要原始数据)1．选项解释变量个数：在此指定输出表中数值列的个数。如果没有输入数字，Exce1将在指定的输出区域中填充所有的列。(4)随机数个数：在此输入要查看的数据点个数。每一个数据点出现在输出表的一行中。如果没有输入数字，Exce1将在指定的输出区域中填充所有的行。(10)分布：在此选择用于创建随机数的分布，共有7种选择。（1）均匀：以下限和上限来表征。其变量是通过对区域中的所有数值进行等概率抽取而得到的。通常是在范围0到1之间的均匀分布。（2）正态：以均值和标准差来表征。默认值是标准正态分布。（3）Bernoulli：以给定的试验中成功的概率（p值）来表征。Bernou11i随机变量的值为0或1。例如，可以在范围0到1之间抽取均匀分布随机变量。如果变量小于或等于成功的概率，则Bernou11i随机变量的值为1；否则，随机变量的值为0。（4）二项式：以一系列试验中成功的概率（p值）来表征。例如，可以按照“试验次数”框中指定的个数生成一系列Bernoulli随机变量，这些变量之和为一个二项式随机变量。（5）Poisson∶以值λ来表征，λ等于均值的倒数。Poisson分布经常用于表示单位时间内事件发生的次数。（6）模式：以上界和下界、步长、数值重复率以及序列重复率来表征。（7）离散：以数值及相应的概率区域来表征。在本对话框中给定的输入区域必须包含两列，左边一列包含数值，右边一列为与数值相对应的发生概率。所有概率的和必须为1。参数：在此输入用于表征选定分布的数值。随机数基数：在此输入用来构造随机数的可选数值。可在以后重新使用该数值来生成相同的随机数。输出区域：在此输入对输出表左上角单元格的引用。如果指定的输出区域会覆盖已有的数据，Exce1会自动调整输出区域的大小和位置并显示一则消息。新工作表组、新工作簿：含义同上一小节中的相同项目。[本例完]4.2.5抽样当统计分析原始数据的数量太大时，为了提高工作效率，常常从总体中按一定方法抽出一定数量的样本来代替整体。通过对样本的分析，推断整体的统计规律。常用的抽样方法有两种，随机法和周期法。如果总体数据呈随机分布，则抽样时也要尽量保证取样的随机性；如果总体数据按一定周期循环分布，如每年的四个季度，这时就