R软件及编程应用第六讲

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

R软件及编程应用中南财经政法大学信息与安全工程学院刘树栋第六讲:概率与分布、探索性数据分析一、概率与分布二、探索性数据分析一、概率与分布1、随机抽样2、排列组合与概率计算3、概率分布4、R中内嵌的分布5、中心极限定理1、随机抽样在R语言中用函数sample()来实现:(1)等可能的不放回的随机抽样:sample(x,n),其中x为要随机抽样的向量,n为样本容量。例如从52张扑克牌中抽取4张对应的R命令为:sample(1:52,4)(2)等可能的有放回的随机抽样:sample(x,n,replace=TRUE),其中选项replace表示抽样的有放回,此参数省略或replace=FALSE表示抽样不放回。例如抛一枚质地均匀的硬币10次的R命令为:sample(c(“H”,“T”),10,replace=T),掷一颗骰子10次的R命令为:sample(1:6,10,replace=T)1、随机抽样(3)不等可能的随机抽样:sample(x,n,replace=TRUE,prob=y),其中prob=y用于指定x中元素出现的概率,向量y与x等长度。例如一名外科医生做手术成功的概率为0.90,那么他做10次手术的R命令为:sample(c(“成功”,“失败”),10,replace=TRUE,prob=c(0.9,0.1))。若1表示成功,0表示失败,此命令可变为:sample(c(1,0),10,replace=TRUE,prob=c(0.9,0.1))2、排列组合与概率计算例1、从一副完全打乱的52张扑克中取4张,求以下事件的概率:1)抽取的4张依次为红心A,方块A,黑桃A和梅花A的概率;2)抽取的4张为红心A,方块A,黑桃A和梅花A的概率。解:1)抽取的4张是有次序的,因此使用排列来求解.所求的事件(记为A)概率为:R中计算命令为:1/prod(52:49)结果:1.539077e-071()52515049PA2、排列组合与概率计算2)抽取的4张是没有次序的,因此使用组合数求解.所求的事件(记为B)的概率为:R中计算命令为:1/choose(52,4)结果:3.693785e-065241()()PB3概率分布3.1离散分布的分布律1)贝努里分布:binom(1,p)意义:一试验中有二个事件:成功(记为1)与失败(记为0),出现的概率是分别为p和1–p,则一次试验(称为贝努里试验)成功的次数服从一个参数为p的贝努里分布。分布律:1(,)(1),0,1(01)xxfxpppxp数字特征:(),()(1)ExpVarxpp2)二项分布:binom(n,p)意义:贝努里试验独立地重复n次,则试验成功的次数服从一个参数为(n,p)的二项分布。分布律:(|,)(1),0,1,...,npxnxfxnpppxn数字特征:(),()(1)ExnpVarxnpp3)多项分布:multinom(n,p1,…,pk)意义:一试验中有k个事件Ak,k=1,2,…k,且P(Ai)=pi,其中01ip,11kpii将此实验独立地重复n,则事件A1,A2…Ak出现的次数服从一个参数为(n,p)的多项分布,其中12(,,...)kPppp。分布律:112111!(,,...|,)...!...!0,xxkkkkkiiinfxxxnPppxxxnxn数字特征:(),()(1),cov(,)iiijijExnpVarxnppxxnpp4)负二项分布:nbinom(k,p)意义:贝努里实验独立地重复进行,一直到出现k次成功时停止实验,则实验失败的次数服从一个参数为(k,p)的负二项分布。分布律:()(|,)(1),0,1,...()()xxkxfxkpppxkx数字特征:2(1)(1)(),()kpkpExVarxpp5)几何分布:geom(p)意义:贝努里实验独立地重复进行,一直到出现有成功出现时停止实验,则实验失败的次数服从一个参数为p的几何分布。分布律:(|)(1),0,1,2,...xfxpppx数字特征:2(1)(1)(),()ppExVarxpp5)超几何分布:hyper(N,M,n)意义:从装有N个白球和M个黑球的罐子中不放回地取出k(N+M)个球,则其中的白球数服从超几何分布。分布律:(|,,),0,1,2,...min{,}NMxkxNMkfxNMkxNk数字特征:()(),()(1)1kNNMkkNNExVarxNMNMNMNM6)泊松分布:pois()意义:单位时间,单位长度,单位面积,单位体积中发生某一事件的次数常用泊松分布来刻划,例如某段高速公路上一年内的交通事故数和某办公室一天中收到的电话数都可认为近似服从泊松分布。分布律:(|),0,1,2,...!xfxexx数字特征:(),()ExVarx3.2连续分布的分布律1)贝塔分布:Beta(a,b)意义:在贝叶斯分析中,贝塔分布常作为二项分布参数的共轭先验分布。密度函数:111(|,)(1),01(,0)(,)abfxabxxxabBab数字特征:2(),()()(1)aabExVarxababab2)均匀分布:unif(a,b)意义:区间[a,b]上随机投点对应的坐标服从[a,b]上的均匀分布。密度函数:1(|,),fxabaxbba数字特征:22(),()212abbaExVarx3)柯西分布:cauchy(a,b)意义:柯西分布(又称Lorentz分布)用于描述共振行为,以一随机的角度投向X轴的水平距离服从柯西分布。密度函数:1(|,),01(,0)(1)fxabxabxabb数字特征:均值和方差都不存在4)威布尔分布:weibull(a,b)意义:最为常用的寿命分布,用来刻划滚珠轴承、电子元器件等产品的寿命。密度函数:1(|,),0(,0)bbaxfxababxexab数字特征:12221(1)(),21(1){(1)}bbbbExabbVaraa5)指数分布:exp()意义:泊松过程的等待时间服从指数分布。形状参数b=1的Weibull分布为指数分布。密度函数:(|),0(0)xfxex数字特征:211(),()ExVarx6)瑞利分布:rayl(b)意义:瑞利分布为weibull分布的又一个特例:它是参数为21(,2)2b)的Weibull分布。密度函数:222(|)exp()2xxfxbbb数字特征:24(),()22ExbVarxb7)正态/高斯分布:norm(2,)意义:高斯分布是概率论与数理统计中最重要的一个发布。中心极限定理表明,一个变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一定是正态变量。因此许多随机变量可以用高斯分布表述或近似描述。密度函数:2()212(|,)e,,,02xfxx数字特征:2(),()ExVarx8)对数正态分布:lnorm(2,)意义:ln(X)服从参数为(2,)的正态发布,则X服从参数为(2,)的对数正态发布。密度函数:2(ln())212(|,)e,,,02xfxx数字特征:22221()exp{},()(1)2ExVarxeee9)逆正态分布:inorm(,)意义:正态随机变量的倒数服从的发布。密度函数:3()212(|,)exp,,02xxfxx数字特征:3(),()ExVarx10)伽玛分布:gamma(a,b)意义:k个相互独立的参数1b的指数分布和服从参数为(k,b)的伽玛分布。密度函数:11()(|,),,,0axababfxabxexab数字特征:2(),()abExabVarx特例:a=1时分布为指数分布;,22nab时的分布为卡方分布11)逆伽玛分布:igamma(a,b)意义:伽玛分布随机变量的倒数服从逆伽玛分布。密度函数:11(1)()(|,),,,0aabxabfxabxexab数字特征:221(2)(1)(2)1()(1),()(1)abaaExaVarxba特例:,22nab时的分布为逆卡方分布12)卡方分布:chisq(n)意义:n个正态随机变量的平方和服从自由度为n的卡方分布。密度函数:12222()2(|),0nxnxenfxnx数字特征:2(),()nExnVarx13)逆卡方分布:ichisq(n)意义:卡方分布随机变量的倒数服从逆卡方分布。密度函数:1(1)22(|),022()2nxxefxnxnn数字特征:22(4)(2)(4)1()(2),()2nnnExnVarxn14)t分布:t(n)意义:随机变量X和Y独立,X服从标准正态分布,Y服从自由度为n的卡方分布,则/XTYn服从自由度为n的t分布。密度函数:2(1)2(1)(|)1(,)22nxnfxnnnB数字特征:(2)2()0,()nnnExVarx15)F分布:f(n,m)意义:随机变量X和Y独立,X服从自由度为n的卡方分布,Y服从自由度为m的卡方分布,则XnTYn服从自由度为(n,m)的F分布。密度函数:222()2()(|)(1)(,)22nnnmnxnmfxnxnmmB数字特征:22(2)(2)(2)()(2),()2mnmnnnmmExmVarxm16)logistic分布:logis(a,b)意义:生态学中的增长模型常用logistic分布来刻划,它也常用于logistic回归中。密度函数:()1[1](|,)xabefxab数字特征:223(),()bExaVarx17)Dirichlet分布:Dirichlet(1,...,k)意义:在贝叶斯分析中可作为多项分布参数的共轭分布。Dirichlet分布的密度函数表示在已知k个竞争事件已经出现了1k次条件下,它们出现的概率为xi,i=1,2,…k的信念。密度函数:111111,12()()0,1(0),()()(,,...|)ikiikkiiiiikiiixkBxxBfxxx数字特征:0200()(1)0(),()iiiExVarx4、随机抽样R中内嵌的分布函数R提供了四类有关统计分布的函数:密度函数、(累积)分布函数、分位数函数、随机数函数。它们都与分布的英文名称(或其缩写)相对应。下表列举了18个分布的英文名称、R中的名称和函数中的参数选项。举例举例还有均匀分布、指数分布、正态混合分布例子二、探索性数据分析1、常用发布的概率函数图2、直方图与密度函数的估计3、单组数据的描述性统计分析4、多组数据的描述性统计分析5、分组数据的描述性统计分析数据的统计分析分为描述性统计分析和统计推断两部分,前者又称为探索性统计分析,它是通过绘制统计图形、编制统计表格、计算统计量等方法来探索数据的主要分布特征,揭示其中存在的规律。探索性数据分析是进行后期统计推断的基础。本章针对不同类型的数据通过R介绍的探索性数据分析技巧,分别从图形和描述性统计量(包括样本的均值、标准差、分位数、偏度、峰度等统计量)上刻划样本的特征。探索性数据分析概述(1)二项分布1、常用分布的概率函数图(2)泊松分布(3)几何分布(4)

1 / 92
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功