数据、模型与决策Data,ModelsandDecisions1、主要讲授课程:计量经济学、运筹学、经济预测与决策技术2、主要研究方向:多元统计半参数统计中估计问题因果效应推断本课程的主要内容数据分析的基本内容计量模型的基本方法预测与决策的基本技术软件的简单应用本课程的特点数据、模型与决策流程结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的是在科学、符合逻辑和合理的基础上制定决策特点:以数据为基础。将数据作为基本的信息来源,以对实际问题的了解为基本结构,以数据对结构的吻合程度为标准。以模型为手段。以数学理论与方法为工具定量研究社会经济现象之间的关系,形成较严密的研究特色,具有较好的可试验性。决策是目的且具有量的特征,定量可以对问题的描述较精确,能对问题的本质进行深入、广泛的推断,为科学决策提供依据。是一门多学科交叉的科学,数理统计学与运筹学、管理学是其基础计算机技术是必不可少的工具。实际问题1:资源分配问题潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨光作业)。你们公司有这样的经历吗?实际问题2:销售量评估某食品公司生产各种系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?预测对生产计划有多重要?案例1有兄弟姐妹一起成长,不仅增添亲情,而且有预防疾病的好处一项来自澳大利亚的研究表明:兄弟姐妹在6岁之前的相互传染病毒可以增强免疫功能,并预防多发性硬化症。塔斯马尼亚州研究者观察了136名多发性硬化症患者,并与272名健康者进行了对比。有兄弟姐妹的人得病少科学家发现:在幼儿时期与兄弟姐妹有五年以上密切生活的人患多发性硬化症的几率下降了88%,而与兄弟姐妹接触1-3年的人可降低43%。案例2科学家最近发现了保持苗条身材的奥妙。如果一个人平时闲不住,小动作很多,日常消耗的热量就多,就能保持苗条的身材。美国梅欧医院请来了20位志愿者,进行了为期一年的研究。志愿者分为两组,一组较瘦,另一组轻度微胖。所有志愿者都穿上一种带有传感器的特制内衣,内衣里的装置每隔半秒钟记录一次人体的姿态与活动“坐立不安”让人苗条志愿者照常进行他们的日常工作与活动,所有食物由研究人员提供研究人员发现,轻度微胖者更喜欢坐着,而身材苗条组的人闲不住。瘦人组的平均“坐立不安”的时间比胖人组多2个小时,相当于多消耗350卡热量如果胖人组也这么不“消停”的话,一年下来完全可以减轻14-18磅的体重此外,研究人员还发现:一个人爱动还是喜静是天生的,与体重无关。在研究的第二阶段,让瘦人多吃1000卡热量,胖人少吃1000卡热量,他们的生活习惯没有改变。这项研究为肥胖者提供了新的希望。以上几个问题说明在现实生活中,不管是进行决策还是进行研究发现新结果,都离不开数据。第一章、数据与数据展示1.数据概述:可分为科学数据、社会数据、商业数据。(依来源与用途)分类:数值型与属性型静态数据与动态数据时间序列数据、截面数据、面板数据定类数据、定序数据、定距数据与定比数据(一)数据的来源1、已存在的数据。包括存在于组织中的一些个人信息资料;一些专门收集与维护数据的公司所拥有的商务数据;政府机构2、调查研究获得的数据。可分为实验性研究与观察性研究(二)数据收集的道德准则与行为规范基本准则:数据的客观性与可重复性行为规范:(1)尽可能收集原始数据或第一手数据(2)引用数据时,要辨别是否侵犯知识产权,合法引用要注明数据的来源。(3)原始数据有异常时,要分析异常的原因,不得随意删除、篡改数据。(4)要说明数据处理的工具、方法及处理过程(5)通过问卷调查的数据,要说明调查内容、调查表的设计等(三)数据图表表示数据收集好了,那我们就来看看从数据中能挖到什么宝藏了!3.1类别数据的表格表示例3.1交通事故的驾驶因素分析造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进行驾驶因素分析,得到的原始数据如下:驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚从例3.1的数据,你能看出些什么?也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳驾驶”等因素比较少。很好!其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。一些常用的软件如Excel,几乎能完美地为你完成这些图表!我们从表1很容易看出:哪些因素是比较主要的因素?各因素之间频率的差异有多大?等等。有时,累积频率也需要在频数频率分布表中列出。每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。表2分析驾驶因素中主要因素的频数频率分布表驾驶因素频数频率(%)累积频率%察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶3698偏离规定的行驶路线12100合计50100用Excel制作定性数据频数频率分布表累积频率更常用于有序数据的分析中。我们来看一个例子。例3.2博客调查()PerseusDevelopment公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。表3各年龄段的博客创建情况10-1255,5001.351.3513-192,120,00051.4552.8020-291,630,00039.5692.3530-39241,0005.8598.2030-4941,7001.0199.2150-5918,5000.4599.66年龄段创建的博客数频率(%)累积频率(%)60-6913,9000.34100.00合计4,120,600100.00数据的图形表示用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。当我们在考虑各种图的时候,把变量稍加分类会有帮助。有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别、职业或教育程度。类别变量只记录所属类别,譬如,例1的变量就是类别变量,它包含5个类,个体的数据就是指个体属于其中某个类。要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例3.1的图形表示。例1的饼图42%28%22%6%2%察觉得晚判断失误驾驶错误酒后或疲劳驾驶偏离规定的行驶路线例1的柱状图211411310510152025察觉得晚判断失误驾驶错误酒后或疲劳驾驶偏离规定的行驶路线系列1柱形图与条形图作法垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。例:创建我国2001-2004年第一、第二和第三产业产值数量的变化的柱形图。年份第一产业第二产业第三产业20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.9188020042.076817.238724.372061.打开Excel表,单击“插入图标”工具图标,选择图表类型-柱形图和子图标类型,点击“下一步”。2.选择目标数据,用鼠标选定B4:D8,单击“系列”卡片,点击“下一步”。3.输入系列名称,用鼠标选定“分类(X)轴标志”A5:A8,单击“下一步”4.输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。5.选择图表位置,单击“完成”。6.图表完成。如果需要,可以双击图表中任何一部分进行修改。2001-2001年一、二、三产业总值0.00002.00004.00006.00008.00002001200220032004年份产值(万亿元)第一产业第二产业第三产业图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”直方图因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比较清楚。这就是本节中我们将重点介绍的图形——直方图(histogram),它是描述数量变量分布最常用的图。在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方形所组成的图形,就叫做频数分布直方图,简称直方图。通过直方图,我们可以比较快速、直观地把握整体的分布情况。直方图作法步骤:1)确定直方图的区间个数,填入每个组界值;2)打开“工具”菜单;3)选择“数据分析”;4)选择“直方图”;5)在“直方图”对话框中填入数据用Excel制作定量数据频数频率分布表和直方图见例1.14(四)数据集中与分散属性的度量某两个班《DMD》考试成绩如下:808576786793889075666577748381708364966079868071798987747865978991617977858978728684888466697874778981如何评价这两个班的学习成绩呢?描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:数据的频数分布和直方图数据集中属性的指标(平均数、中位数、众数、比例)数据离散属性的指标(极差、方差、标准差)数据分布形态的指标(偏度、峰度)数据的计数和求和数据之间的相关程度的指标(相关系数)Excel中的统计功能有以下三种实现方法使用Excel的菜单统计工具使用Excel统计函数使用Excel统计插件(例如PHStat等)数据集中趋势的测度均值:一组数据的平均值。中位数:数据序列中位于中间的值。众数:发生次数最多的值。nxxxxn......21不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:=MO