2020/2/281随机数据建模——数据初步分析处理2020/2/282一、数据在模型中的重要性建立数学模型解决现实问题目的真实世界的背景不容忽视需要收集、分析背景数据数据作用于模型的形式:初期:寻求变量间的关系中期:模型参数估计后期:模型检验2020/2/283建模案例•96年B题:节水洗衣机–该题没有任何数据,需要查找足够多数据才能进行下一步工作,有些甚至需要通过实验获得•2004年A题:奥运会临时超市网点设计–该题数据量非常大,需在统计分析基础上才可进行下一步工作思考:需要哪些以及何种形式的数据?如何去获得数据?怎样表达数据?如何整理、分析数据?2020/2/284其他案例•统计学中的盐(印度)•数据挖掘:超市商品选择近年的赛题,每年几乎总有一个需要对大量数据进行处理,这也反映了科研与应用中对数据处理的需求;人才市场中较为青睐数据分析工作者。2020/2/285二、常见收集数据方法着手建立模型时,关于数据需考虑以下问题:1.需要哪些以及何种形式的数据?2.如何去获得数据?怎样表达数据?3.如何对数据进行整理、分析?获取数据方式图书文献检索统计机构询问相关人员试验、观察并记录间接来源直接来源网络资源2020/2/286数据的计量与类型定距数据定比数据定性数据定量数据例:性别、种族、运动项目例:教育程度、产品等级、满意度例:成绩、年龄、产量定类数据—→定类变量定序数据—→定序变量数字变量(离散、连续)没有真正的零点例如,温度存在真正的零点;倍数有意义例,身高、体重2020/2/287数据度量与信息含量DataMeasurementandInformation•度量尺度的信息含量由弱到强排列:•定类尺度和定序尺度用于属性数据–信息量低•定距尺度和定比尺度用于数值数据–信息量高定类尺度→定序尺度→定距尺度→定比尺度2020/2/288数据的来源——直接来源直接来源普查统计调查方式统计报表重点调查典型调查抽样调查统计调查方法询问法实验法观察法选择适合调查方式的方法2020/2/289统计数据的误差•抽样误差–由抽样随机性造成,只存在于概率抽样中。•非抽样误差–覆盖误差——被调查总体范围被人为减小–无反馈误差——调查回收率太低–道德误差——调查人员缺乏业务培训或职业道德–被调查者误差——理解有误,有意欺瞒–测量误差——测量工具不准确2020/2/2810总体(学生)样本框架(电话簿里的学生)计划选取样本(选定的学生)实际的样本覆盖面误差抽样误差不回答和度量误差统计数据的误差2020/2/2811用数学模型描述现实问题,模型中参数的估计、模型的求解以及模型的合理性很大程度取决于数据的准确可信。实验数据中总存在实验误差在建模工作的各个环节,实验误差都可能造成失之毫厘,谬之千里的失误。2020/2/2812实验误差随机误差:系统误差:过失误差:由一系列偶然因素引起的一类不易控制的测量误差。实验观察过程中服从确定性规律的误差。明显歪曲实验结果的误差。无法避免,可增加试验次数,取算术平均来减小。不能通过增加实验次数求算术平均值来消除。但可用其他方法识别、消除。可以识别、并加以处理。2020/2/2813在实验数据中,三类实验误差常常同时错综复杂的存在着。控制实验数据的质量整理实验数据消除实验误差重要工作2020/2/2814误差的处理方法:1.用统计检验方法检验出异常数据;2.尽可能寻找产生异常点的技术上或物理上的原因,作为处理异常值的依据。3.根据经验和实际背景知识做出实验数据的检查修正,异常数据的舍弃处理。例3施肥效果分析2020/2/2815课后小作业•问卷调查如何实施?需注意哪些问题?•尝试选择感兴趣的问题设计并进行问卷调查•可参考的问题:–学生怎样安排周末–学生如何使用奖学金–学生相互间帮助关心状况–学生对未来的规划与实施状况–……2020/2/2816再次强调:收集数据需考虑以下问题1.需要哪些以及何种形式的数据?2.如何去获得数据?怎样表达数据?3.如何对数据进行整理、分析?有计划地收集到数据,并有效地分析整理,将使整个工作过程更加轻松,模型与结果更为可靠。2020/2/2817三、数据的初步分析与整理•得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论•图表分析:–频数直方图、饼图、茎叶图、箱线图、交叉表等•数据特征分析:–集中趋势、离散趋势、分布形状2020/2/2818单变量定量数据的图表描述单变量数据的图表描述未分组茎叶图箱线图分组频数分布表累积频数分布表直方图折线图累积频数分布图数据图形描述数据整理2020/2/2819定类变量定序变量定性变量条形图圆形图01020304050607080902020/2/2820定距变量定比变量茎叶图直方图频数表条形图出生1.4.4.472.72.73.12610.210.213.311946.546.559.87930.930.990.6218.28.298.831.21.2100.0256100.0100.01975197619771978197919801981TotalValidFrequencyPercentValidPercentCumulativePercent出生1981.01980.01979.01978.01977.01976.01975.0140120100806040200圆形图2020/2/2821单变量定量数据的图表描述——数据整理•统计分组–根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。–例,收集到某班所有同学的考试成绩,为了研究需要划分优、良、及格、不及格四个成绩段,每个成绩段的范围分别是85-100,70-85,60-70,0-60,将每个成绩归入到相应的组中。2020/2/2822•对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。•频数分布表示例如下:原始数据:24,26,24,21,27,27,30,41,32,38组界(上界+下界)/2组距组别组中值频数15且2520325且3530535且45402频率30.050.020.02020/2/2823累积频数分布表•为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要在频数分布表基本分组的基础上绘出累积频数或累计频率。•“向下累积”–由表的上方向表的下方的频数或频率相加•“向上累积”–由表的上方向表的下方的频数或频率相加2020/2/2824小于组别下限的百分数原始数据:24,26,24,21,27,27,30,41,32,38组别下界30%+50%80%+20%组别累计百分比15~250.025~3530.035~4580.045~55100.0累积频数分布表实例2020/2/2825数据图形描述(分组后数据)•数据分组整理后的图形描述–直方图•用矩形的高度和宽度来表示频数分布–折线图•作用与直方图相似–累积频数分布图•描述累积频数或频率信息2020/2/2826012345直方图频数或频率01525354555下界柱条接触计数类别频数15~25325~35535~4522020/2/2827012345中点虚拟的外推组0102030405060组别频数152532535535452计数频数或频率折线图2020/2/28280%25%50%75%100%下界虚拟的外推组01525354555组别累计%15~250%25~3530%35~4580%45100%累计%累积折线图2020/2/2829数据图形描述(未分组数据)•数据未分组整理后的图形描述•茎叶图–用于直接描述未分组原始数据的探索性分析–描述数据分布形状,如数据是否集中,是否有极端值等–由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成•箱线图–用于直接描述未分组原始数据的探索性分析–描述数据的分布形状,如数据是否集中,是否有极端值等–可以比较多组数据分布特征–图中包含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值2020/2/2830•把每一项观察分解为茎值和叶值–茎值确定组别–叶值确定频数(计数)2144677302841Xi茎叶图2020/2/283129N=OVER65201816141210864KoreaMexicoTurkey奇异值最大值最小值中位数大于1.5倍四分位数间距四分位数间距范围箱线图2020/2/2832关于箱线图•中间的黑粗线为中位数•方框为四分位间距的范围•离方框上/下界的距离超过四分位数间距1.5倍的为离群值,以“O”表示;超过3倍的则为极值,用“*”表示。2020/2/2833单变量定性数据的图表描述•频数分布表(又叫总结表)–类似于整理定量数据的频数分布表–包含:•分类的频数或频率,即指落在某一特定类中的观察值数•分类的相对频数,指某个特定类的频数除以观察值总数所得的商–累积频数分布表•类似于整理定量数据的累积频数分布表2020/2/2834单变量定性数据的图表描述•条形图–类似直方图,条形图的横轴表示的是各个分类,直方图的横轴表示所分的组•饼图–通常用来描述落在各个分类中的观察值数分别在总数中所占的比率•累积频数分布图–类似于描述定量数据中的累积频率分布图•帕雷托图–变量的分类数目较多时,用帕雷托图要比条形图和饼图更能直观地显示信息。–广泛应用于过程分析和质量分析中2020/2/2835050100150会计经济管理水平条表示类型变量条长表示频数或者%条宽的1/2到1倍相同的条宽零点频数专业也可使用百分比条形图2020/2/2836经济10%管理25%会计65%•1.表示出总量的分类•2.是表示相对差异的有效办法•3.角度大小–360(百分数)专业360°×10%=36°36饼图2020/2/28370%33%67%100%会计管理经济百分数专业递减顺序累积频数分布图相同的条宽竖直条形条的中点帕雷托图2020/2/2838多变量定性数据的图表描述•交叉表–可检测两个定性变量的关系–同样可用来描述两个变量都是数字变量,或者一个变量是定类或定序变量,另一个是数字变量之间的关系•多重条形图–描述两个定类或定序变量间关系2020/2/2839•住处:CCOOCCOOCO性别:MFFMMMFMMF•(C=校内,O=校外;M=男,F=女)4123性别住处男女合计校内5校外5合计6410交叉表2020/2/2840频数住处0123456校内男女校外男女多重条形图2020/2/2841数据的特征和度量数据的特征和度量集中趋势算术平均数调和平均数几何平均数中位数众数百分位数四分位数离散趋势极差四分位距平均差方差与标准差标准分数离散系数分布形状偏态测度峰态测度2020/2/2842数据分布的集中趋势测度•集中趋势(Centraltendency)–是指分布的定位,它是指一组数据向某一中心值靠拢的倾向,或是表明一组统计数据所具有的一般水平。•对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。•对集中趋势的度量有数值平均数和位置平均数之分。2020/2/2843数值平均数•数值平均数又称均值(Mean)•算术平均数–简单算术平均数–加权算术平均数•调和平均数(Harmonicmean)–简单调和平均数–加权调和平均数•几何平均数–简单几何平均数–加权几何平均数2020/2/2844算术平均数•简单算术平均数–根据原始数据直接计算均值•加权算术平均数–先将数据进行分组,即将n个数据按变量值(xi)进行分组,并统计在各个变量取值出现的次数,或称为频数(fi)。nxnxxxxin21nfxffxffffxfxfxxiiiiinnn2122112020/2/2845调和平均数(Harmonicmean)•它是根据变量值倒数计算的,也叫倒数平均数,一般用字母表示Hm•简单调和平均数•加权调和平均数inmxnxxxnH111121iiinnnmxmmxmxmxmm