大数据技术及数据分析主讲人:师伟2课程收益学习数理统计的理念熟悉常见的处理套路掌握常用软件的使用解决学员的具体问题3目录数理统计常识数理统计技术4目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术5案例(武汉晨报3月31日报道)经过三天两夜长途跋涉,5万多瓶武汉救命水昨日运抵干旱重灾区云南省禄劝县,就在大家准备换小货车进山送水时,却遇到了“天价运费”的梗阻,140公里山路,两名当地司机要价6000元。昨日下午,晨报记者与林厚凯押运的5万多瓶武汉救命水一到禄劝县城,就受到了该县团委热情地接待。团委书记夏飞表示,他们接到团省委的通知后,按照武汉送水人的要求,对全县数十家小学进行了摸底,确定了两个最需要水的小学:离县城最远的大松树乡小学和雪山乡小学。据了解,从县城过去要走140多公里盘山路,大车根本无法行驶,必须换乘小货车才行。可禄劝县城小货车稀少,在禄劝县团委的帮助下,林厚凯好不容易找到了2辆小货车,谁知车主一见是外地人,报出天价运费,两台车运水,运费6000元。5万瓶水从武汉运到云南禄劝,武汉的两个司机也只是收了5000元运费。知情者透露,在禄劝像这样的运输,费用最多不超过2000元。有人劝林厚凯不如将水就近发放,可他坚持要把水送到最需要的地方。林厚凯说,这个价格虽然远超出他的预期,但为了尽早把水送到孩子们手上,他不会计较。昨晚,在当地交警部门协调下,两位禄劝货车司机松口,将车费降到5000元。为了尽早完成送水心愿,昨晚,记者和林厚凯连夜进山送水。6案例记者在短时间内发生这么多起跳楼的事件,如果站在理论角度上,发生率算不算高?樊富珉按卫生部统计,目前中国自杀率大概是十万分之十六左右。而富士康40多万人,约十万分之二三左右,大学生我们也做过统计,大概十万分之二到三左右。如果从全国的自杀率来比的话,应该还是低的7案例世界银行发展委员会25日通过了发达国家向发展中国家转移投票权的改革方案,这一改革从一个侧面反映了世界经济版图的变化本次改革中,发达国家向发展中国家共转移了3.13个百分点的投票权。中国在世行的投票权从目前的2.77%提高到4.42%,成为世界银行第三大股东国,仅次于美国和日本世界银行规则:任何重要的决议必须由85%以上的表决权决定名次国家改革后投票权改革前投票权1美国15.85%15.85%2日本6.84%7.62%3中国4.42%2.77%4德国4.00%4.35%5法国3.75%4.17%5英国3.75%4.17%7印度2.91%2.77%8俄罗斯2.77%2.77%8沙特2.77%2.77%10意大利2.64%2.71%8案例在一次海难中,统计数据为头等舱乘客319人,200人幸存二等舱乘客269人,117人幸存三等舱乘客699人,172人幸存从以上数据你可以发现什么?9目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术10误差(波动)偶然误差可减小但不可消除系统误差可消除11抽样样本大小AQL0.0100.0150.0250.0400.0650.10.150.250.400.651.01.52.54.06.510抽样数收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退收/退1~820/19~1530/116~2550/11/226~5080/11/22/351~90130/11/22/33/491~150200/11/22/33/45/6151~280320/11/22/33/45/67/8281~500500/11/22/33/45/67/810/11501~1200800/11/22/33/45/67/810/1114/151201~32001250/11/22/33/45/67/810/1114/1521/223201~100002000/11/22/33/45/67/810/1114/1521/2210001~350003150/11/22/33/45/67/810/1114/1521/2235001~1500005000/11/22/33/45/67/810/1114/1521/22150001~5000008000/11/22/33/45/67/810/1114/1521/22≥50000112500/11/22/33/45/67/810/1114/1521/2212连续数据和离散数据连续数据定量信息含量大离散数据定性信息含量小13判断数据属性1.销售订单准确度2.数据输入准确度3.销售地区4.用通规测量得到的孔径5.用卡尺测量得到的孔径6.客户热线对话时间7.空调制冷剂的重量8.一批顾客中不满意的人数9.一批顾客中不满意的比例14数据的居中程度和离散程度主要的居中指标平均值数据集的平均值中位数数据排序后得到的中间数众数数据集中最频繁出现的值主要的离散指标极差数据集中最大值与最小值的差值方差与平均值间距的平方和的平均值标准偏差方差的平方根15正态曲线大多数(但不是所有)数据符合正态分布16目录数理统计常识量化的重要性统计基础知识数据挖掘简介数理统计技术17数据挖掘简介数据挖掘(DataMining)的概念从数据库数据中揭示出隐含的、未知的并有潜在价值的信息决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助做出正确的决策18数据挖掘主要动作分类估值预测关联聚集可视化描述19案例第一次战役1950年10月26日1950年11月02日第二次战役1950年11月25日1950年12月02日第三次战役1950年12月31日1951年01月08日20案例丰田大规模召回事件引起全球强烈反响,引发丰田信誉危机21目录数理统计常识数理统计技术基础动作图表操作典型工具和应用22基础动作搜集整理分析评估展示23目录数理统计常识数理统计技术基础动作图表操作典型工具和应用24图表类型数字型逻辑型25图表的注意事项选取适当的图表类型数量图表应写清单位引用资料应说明出处不要妄图表达过多的信息图例一般控制在五个以下尽量简单明了、利于理解26客户分类评估6%11%13%70%国家评级付款期限支付方式客户评级动态图表27报告制作原则提案型报告说明型报告28文档制作原则逻辑清晰方案多选文字精炼内容可视恰当修饰体积小巧制作迅速29报告的需求管理报告的客户谁在看报告?希望看什么?希望的频率?希望的详略?相关的技巧买点和卖点金字塔原理30报告的素材准则中肯可比准确时效可靠清晰31素材组织的FAB技巧Feature特点Advantage优点Benefit利益BenefitAdvantageFeature客户关注点32目录数理统计常识数理统计技术基础动作图表操作典型工具和应用33规范处理数据和数据有效性数据处理的良好习惯Excel数据有效性34层别法、聚类和表格维度层别法、聚类一维表和二维表35数据透视表360510152025300612182430尺寸频数将数据按顺序等距分组,体现各组内频数的柱状图轮廓符合正态分布曲线说明处于稳定状态通过异常轮廓形状分析可定位异常的原因直方图37案例174185189196208190178184190205184185194191205205207207207206210209217214214206209210381020304050607020406080100ABCDE其他0累積比例缺點數缺點項目表现各项目频度降序排列及累积比例二八原则大问题优先柏拉图39ABC分析法A类0~70%,主要影响因素B类70~90%,次要影响因素C类90~100%,一般影响因素ABC的划分不是绝对的330因素超差差超差超度内径外径平面2203320090100缩水毛刺60其它C类帕累托曲线75A类500频数(件)551000B类8550累积百分数(%)9110040练习张女士结婚五年以来与丈夫发生纠纷如下不做家务28次深夜不归5次不良嗜好5次没送礼物1次胡乱花钱3次婆媳关系50次异性交往8次请制作柏拉图并用ABC法分析41散布图、关联规则和预测研究两个特性之的内在关系坐标轴分别表示结果特性和原因特性使得解决问题时找出强相关的原因42常见类型正相关强X的增加导致Y的明显增加正相关弱X的增加导致Y的略微增加因变量自变量强正相关弱正相关因变量自变量43常见类型负相关强X的增加导致Y的明显减少负相关弱X的增加导致Y的略微减少因变量自变量强负相关自变量弱负相关因变量44常见类型无相关Y的变化与X的变化毫无关系曲线关系X与Y之间无线性关系但符合某种曲线变化规律曲线相关因变量自变量不相关自变量因变量45预测Forecast法趋势线法46单变量求解47规划求解48矩阵数据分析法矩阵数据分析法(MatrixDataAnalysisChart)用于排定优先级、做多目标决策量化表示各元素的关系,更准确地整理和分析结果49案例易于控制易于使用网络性能软件兼容便于维护总分权重易于控制041319.0026.2%易于使用0.2500.20.330.251.033.0%网络性能1503312.0034.9%软件兼容0.3330.3300.334.0011.6%便于维护140.33308.3324.2%总分之和34.3750练习单价面积地段户型发展商物业教育总分权重单价0面积0地段0户型0发展商0物业0教育051中兴通讯管理体系总监中兴通讯最佳兼职讲师中兴通讯学院资深讲师中兴通讯学院质量课程经理深圳质量协会十大金牌讲师中国质量协会第六届学术教育委员会委员JOLIE`SAISATOURPPT制作:by小鱼扫一扫师伟老师公众号