大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区大数据的统计学基础——第6周大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站专业数据分析社区关注炼数成金企业微信提供全面的数据价值资讯,涵盖商业智能与数据分析、大数据、企业信息化、数字化技术等,各种高性价比课程信息,赶紧掏出您的手机关注吧!大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌金分配在17世纪,有一个赌徒向法国著名数学家帕斯卡挑战,给他出了一道题目:甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。当比赛进行到第三局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?分析:假设继续再赌下次,则有如下结果前三局中,甲已胜了两局,乙胜了一局第四局甲胜乙胜第五局甲胜乙胜大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌金分配所以甲最终获胜的概率是3/4,乙最终获胜的概率是1/4根据甲乙两人的获胜概率分配赌金甲的期望所得值为100*(3/4)=75法郎;乙的期望所得值100*(1/4)=25法郎若设X为甲最终获得的赌金,则从而X的期望值,也就是甲最终获得的赌金的期望值为这个故事里出现了“期望”这个词,数学期望由此而来X1000P3/41/4)法郎(7541043100大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区离散型随机变量的数学期望设离散型随机变量X的分布律为PX=𝑥𝑘=𝑝𝑘,k=1,2,……。若级数𝑘=1∞𝑥𝑘𝑝𝑘绝对收敛,则称𝑘=1∞𝑥𝑘𝑝𝑘为随机变量X的数学期望,记为E(X)。即E(X)=𝑘=1∞𝑥𝑘𝑝𝑘例:随机变量X的分布律如下则E(X)=𝑘=14𝑥𝑘𝑝𝑘=0*0.2+1*0.1+2*0.5+3*0.2=1.61X0123P0.20.10.50.2就是求随机变量的取值乘以相应的概率的和大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?一个射击运动员的射击水平,可以通过他的平均得分来衡量乙射手击中环数概率10982.05.03.0甲射手击中环数概率10983.01.06.0大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔如何计算平均得分?假设甲乙两人每人射击了10次,那么理论上,甲乙的得分是:那么理论上,甲的平均得分为:(8+8+8+9+10+10+10+10+10+10)/10=(8*3+9*1+10*6)/10=8*0.3+9*0.1+10*0.6=9.3(环)乙的平均得分为:(8+8+9+9+9+9+9+10+10+10)/10=(8*2+9*5+10*3)/10=8*0.2+9*0.5+10*0.3=9.1(环)所以甲比乙的射击技术好甲8889101010101010乙8899999101010大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区运动员选拔若用X记录甲射击一次击中的环数,用Y记录乙射击一次击中的环数,则X的期望值:8*0.3+9*0.1+10*0.6=9.3Y的期望值:8*0.2+9*0.5+10*0.3=9.1随机变量的期望值=均值X8910P0.30.10.6Y8910P0.20.50.3与理论上的平均得分相等大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区新生婴儿得分大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区候车时间大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区(0-1)分布的数学期望若X服从(0-1)分布,参数p=0.5,求E(X)。则E(X)=0*0.5+1*0.5=0.5=p更一般情况:E(X)=0*(1-p)+1*p=p结论:若X服从参数为p的(0-1)分布,则E(X)=pX01P0.50.5X01P1-pp大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布的数学期望体育课中小明进行投篮练习,若小明每次投中的概率是0.6,记X为3次投篮投中的次数。求E(X)。解:X~B(3,0.6),则P(X=0)=0.4*0.4*0.4=0.064P(X=1)=3*0.6*0.4*0.4=0.288P(X=2)=3*0.6*0.6*0.4=0.432P(X=3)=0.6*0.6*0.6=0.216故E(X)=0*0.064+1*0.288+2*0.432+3*0.216=1.8=3*0.6X0123P0.0640.2880.4320.216大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区二项分布的数学期望更一般地情况,若X~B(n,p),则X的分布律为𝑃𝑋=𝑥𝑘=𝑛𝑘𝑝𝑘(1−𝑝)𝑛−𝑘npppnpppCnpppininnpppknknnpppknknnpppknkknppCkkXPkXEnniiniinniininkknkknnkknkknknkknkknnk110)1(110)1(1)1()1(1)1()1(11000)]1([)1()1(]!)1[(!)!1()1()]!1()1[()!1()!1()1()]!1()1[()!1()!1()1()!(!!1二项式定理:(𝑥+𝑦)𝑛=𝑘=0𝑛𝑛𝑘𝑥𝑘𝑦𝑛−𝑘令i=k-1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区连续型随机变量的数学期望将离散型随机变量的定义类比到连续型随机变量上设连续型随机变量X的概率密度为f(x),若积分−∞∞𝑥𝑓(𝑥)𝑑𝑥绝对收敛,则称积分−∞∞𝑥𝑓(𝑥)𝑑𝑥的值为随机变量X的数学期望。记为E(X),即E𝑋=−∞∞𝑥𝑓(𝑥)𝑑𝑥E(X)=𝑘=1∞𝑥𝑘𝑝𝑘类比大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区均匀分布的数学期望设X~U(2,4),求E(X)。X的概率密度为𝑓𝑥=14−2=12,2𝑥40,其他根据定义,X的数学期望为𝐸𝑋=−∞∞𝑥𝑓(𝑥)𝑑𝑥=24𝑥2𝑑𝑥=𝑥24|42=164−44=3——恰好是2与4的中点更一般地情况,若X~U(a,b),则𝐸𝑋=−∞∞𝑥𝑓(𝑥)𝑑𝑥=𝑎𝑏𝑥𝑏−𝑎𝑑𝑥=𝑥22(𝑏−𝑎)|𝑏𝑎=𝑏22𝑏−𝑎−𝑎22𝑏−𝑎=𝑏−𝑎𝑏+𝑎2𝑏−𝑎=𝑏+𝑎2服从均匀分布的随机变量的期望值位于区间(a,b)中点大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区正态分布的数学期望设,其概率密度为则有),(~2σμNX.,0,eπ21222xxfxxxxpXEdxxxdeπ21222txtx令xxxXEdeπ21)(222tttdeπ212-2ttdeπ2122tttdeπ222μ=0标准正态分布的概率密度积分=1大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区分布的数学期望见附表1几种常见的概率分布表大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性美国的轮盘中常用的轮盘上有38个数字,每一个数字被选中的概率都是相等的。赌注一般押在其中某一个数字上,如果轮盘的输出值和这个数字相等,那么下赌者可以将相当于赌注35倍的奖金(原注包含在内),若输出值和下压数字不同,则赌注就输掉了。因此,考虑到38种所有的可能结果,以1美元赌注押一个数字上获利的期望值为:-1*(37/38)+35*(1/38)≈-0.0526结果约等于-0.0526美元。也就是说,平均起来每赌1美元就会输掉5美分,即美式轮盘以1美元作赌注的期望值为0.9474美元。在赌博中,一场每位参与者获利期望值为0(没有净利或净亏)的游戏通常会被叫做“公平竞赛”。所以这样的赔率设计是不公平的。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性某个赌博游戏规则如下:每个参加者每次先付赌金1元,然后将三个骰子一起掷出,他可以赌某个点数,譬如赌“1”点。如果三枚骰子中出现一个“1”点,庄家除把赌金1元还外,再奖1元;如果出现两个“1”点,除发还赌金外,再奖2元;如果全是“1”点,那么,除发还赌金外,再奖3元。试问这样的游戏规则对下注者是否公平?用X记参加者最终的获利。X的可能取值:-1,1,2,3P{X=-1}=56∗56∗56=125216P{X=1}=3156216=75216P{X=2}=3216256=15216P{X=3}=16∗16∗16=1216大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区赌博的公平性X-1123P125/21675/21615/2161/216所以E(X)=-1*(125/216)+1*(75/216)+2*(15/216)+3*(1*216)=-17/216所以,平均每参与216次,会输17元。对于庄家来说,只要长期有人参与这个游戏,肯定是会赢钱。这个赌博的设计不公平。大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区数学期望的性质1.设C是常数,则有E(C)=C2.设X是一个随机变量,C是常数,则有E(CX)=CE(X)3.设X,Y是两个随机变量,则有E(X+Y)=E(X)+E(Y)——可以推广到任意有限个随机变量之和的情况4.设X,Y是相互独立的两个随机变量,则E(XY)=E(X)E(Y)5.设Y是随机变量X的函数:Y=g(X)(g是连续函数),则1)X是离散型,EY=𝑘=1∞𝑔(𝑥𝑘)𝑝𝑘2)X是连续型,E𝑌=−∞∞𝑔(𝑥)𝑓(𝑥)𝑑𝑥大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区例子大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区方差——数据的离散程度运动员选拔设某教练员有甲、乙两名射击运动员,现需要选拔其中的一名参加运动会,根据过去的记录显示,二人的技术水平如下:试问哪个射手技术较好?X记甲击中环数,Y记乙击中环数E(X)=8*0.3+9*0.2+10*0.5=9.2E(Y)=8*0.1+9*0.6+10*0.3=9.2击中环数8910概率甲0.30.20.5乙0.10.60.3平均水平相等,考察发挥的稳定性——方差大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区方差——数据的离散程度假设甲乙两人每人各射击了10次,理论上击中的环数则甲的方差为:1108−9.22+8−9.22+⋯…+10−9.22=1103×8−9.22+甲888991010101010乙8999999101010乙的稳定性更好大数据的统计学基础讲师何翠仪DATAGURU专业数据分析社区随机变量的方差设X施一个随机变量,若𝐸{𝑋−𝐸𝑋2}存在,则称E{[X-E(X)]}为X的方差,记为D(X)或Var(X),即D(X)=Var(x)=𝐸𝑋−𝐸𝑋2𝐷(