1《统计建模》复习题1.统计建模的主要步骤有哪些?1明确问题2数据收集3数据预处理4模型构建5模型估计6模型检验7结果分析8撰写论文2.试列举至少5个常用的统计数据库?例如,中经网统计数据库。1国家统计数据库2中国经济网数据中心3OECD数据库4国研网数据库5国家发改委6世界银行7中国统计年鉴、WIND数据库、BvD数据库3.试列举至少4项国内广泛使用的微观数据库?并简要说明。1.CHIP数据(中国农村和城市居民家庭收入分配)2.CHNS(中国健康与营养调查)3.CHARLS(中国健康与养老追踪调查)4.CFPS(中国家庭动态调查)5.CHFS(ChinaHealthandFertilitySurvey)中国健康与生育调查4.常见的模型估计方法有哪些?试列举之。最小二乘(OLS)法、极大似然估计、广义矩(GMM)法、分位数回归方法、贝叶斯估计5.在完成统计模型的参数估计后,通常需要进行哪几类检验?试列举之。定性检验,T检验,f检验,拟合优度检验,预测精度检验6.著名统计学家博克斯(GeorgeBox)说过:所有的模型都是错的,但其中有一些模型是有用的!你对这句话如何理解?模型只能是客观世界的一种近似,是现实的简单化或理想化。有用的模型能抓住并凸显现象中与分析目的最相关的特征,能抓住问题的本质。7.简述结构方程模型和普通回归模型的区别?结构方程模型,是一种建立、估计和检验多个变量之间的因果关系模型的方法。模型中既包含有可观测的显变量,也可能包含无法直接观测的潜变量。普通回归模型属于单方程模型方法,结构方程模型属于联立方程模型方法,回归分析只能处理显性变量,而结构方程模型可以发现潜在变量。普通回归一般只有一个因变量,而且是单向的,SEM则是可单,可双,普通回归是基础,SEM是后来的发展和完善8.和普通回归模型相比,结构方程模型有哪些优点?1允许回归方程的自变量含有测量误差2可以同时处理多个因变量3.可以在一个模型中同时处理因素的测量和因素之间的结构。24.允许更具弹性的模型设定。9.结构方程模型的构建包括哪几步?1.模型假设:SEM是一种验证性的方法,必须有理论支撑。在进行模型估计之前,要先根据理论分析或以往研究成果来设定初始理论模型。2.模型识别:确定所设定的模型是否能够对其估计求解。3.模型估计:极大似然法(Maximumlikelihood)和广义最小二乘法(Generalizedleastsquare)4.模型评价:对模型的整体和参数的估计值进行评价。如果模型拟合效果不佳,对模型进行修正后重新估计和评价。10.观察变量、潜在变量测量变量:也叫观察变量或显变量(显示变量),是可以直接测量的指标。潜变量:无法直接观测,其测量是通过一个或几个可观察指标来间接完成的。11.测量模型、结构模型、3测量模型4典型的SEM模型图示12.外生变量、内生变量外生变量:在模型或系统中,只影响其他变量,而不受其它变量的影响。在路径图中,只有指向其他变量的箭头,没有箭头(不考虑残差项)指向它的变量内生变量:在模型或系统中,受其他变量(外生变量或内生变量)的影响,而不受其它变量的影响。在路径图中,有其它变量的箭头指向它。13.因果关系、相关关系因果关系:一个变量对另外一个变量的直接影响。用单向箭头表示。相关关系:双向曲线箭头表示。但这种相关关系不代表有因果关系。因果关系需要更严密的证明。例如,常吃鱼的学生学习成绩更好。二者是相关关系,但不一定具有因果关系。14.直接效应、间接效应和总效应直接效应:反映原因变量(外生变量或内生变量)对结果变量(内生变量)的直接影响。其大小等于原因变量到结果变量的路径系数。间接效应:反映原因变量通过一个或者多个中间变量对结果变量所产生的影响。5间接效应是所有从原始变量出发,通过中间变量,结束于结果变量的路径系数乘积之和。总效应:原因变量对结果变量效应的总和,包括直接效应和间接效应。15.饱和模型与非饱和模型预设模型(Defaultmodel):所建立的模型。饱和模型(Saturatedmodel):对参数间关系最无限制的模型,各个变量间都假设相关或有因果关系。独立模型(Independencemodel):指模型中所有变量完全独立。只估计观测变量的方差。也叫零模型。如果“预设模型”拟合的比“独立模型”还差,就应该拒绝预设模型。通常预设模型的拟合优度在独立模型和饱和模型之间。16.简述内生变量和外生变量的区别。内生变量是由模型系统决定的,同时也对模型系统产生影响,外生变量影响系统但不受系统影响.外生变量一般是经济变量,条件变量,政策变量,虚变量17.简述路径系数和载荷系数的区别。:潜变量与潜变量间的回归系数称为路径系数,潜变量与可观测变量间的回归系数称为载荷系数。18.在结构方程模型中,Defaultmodel(预设模型)、Saturatedmodel(饱和模型)、Independencemodel(独立模型)三类模型有什么区别,并举例说明。预设模型(Defaultmodel):所建立的模型。饱和模型(Saturatedmodel):对参数间关系最无限制的模型,各个变量间都假设相关或有因果关系。独立模型(Independencemodel):指模型中所有变量完全独立。只估计观测变量的方差。也叫零模型。6如果“预设模型”拟合的比“独立模型”还差,就应该拒绝预设模型。通常预设模型的拟合优度在独立模型和饱和模型之间。19.比较验证性因子分析(CFA)与探索性因子分析(EFA)的区别。探索性因子分析(CFA):针对已有数据,探索模型中变量之间的关系。目的在于探索。样本量应超过100,应该为观测变量的5-10倍以上(Hair,1998)验证性因子分析(ConfirmatoryFactorAnalysis,EFA):验证根据理论预设的模型中,若干变量之间的关系是否成立。目的在于验证。样本量至少150个(Rigdon,E.,2005),至少为观测变量数目的10-15倍以上(Thompson,2000)20.简述PLS-PM模型与SEM模型的区别,比较二者的优缺点。PLS-PM不对数据做任何分布假定,而SEM必须假定数据为多元正态分布。但学界往往忽视此点,误用SEM模型。在实际应用中,往往统计不显著也都判定显著,这是因为数据很难满足正态性假定。在正态假定下,PLS估计是有偏的;但在非正态条件下,PLS-PM优于SEM。PLS-PM适用于小样本;SEM样本量必须较大。PLS-PM假定所有隐变量都是相关的(即使在图中它们之间无箭头),而SEM假定,只要隐变量之间无箭头,就认为它们之间的相关为零;PLS-PM用全部数据建模,而SEM由于假定了分布,只要有各变量的协方差矩阵就可以计算。例如,4个观测变量,只需协方差及样本量n,共11个数就可以得到大量输出结果,这意味着先验假定对结果影响较大。7由于软件支持,而且只要有协方差阵即可计算,社会学、心理学、教育学等学者偏好SEM方法。PLS-PM和SEM的检验评价指标不同;PLS-PM适用于关注隐变量得分的情况(例如满意度指数),各国计算满意度指数都用PLS-PM方法。SEM无法直接得到隐变量得分。PLS-PM收敛速度快,适用于较大、较复杂的模型,计算效率比SEM更高。PLS-PM无商业软件支持,知名度低;SEM有LISREL、AMOS等软件支持,知名度高。21.季节调整的分解方式包括哪几种模型?22.在季节调整过程中,什么时候选择取对数?什么时候不取对数?乘法模型取对数,加法模型不取对数针对某个序列而言,数据波动明显取对数,数据波动平稳不取存在异方差的时候必须取对数823.指数平滑包括哪几种常用的方法,并指出每一种指数平滑方法的适用条件。(1)单指数平滑(一个参数)这种单指数平滑方法适用于序列值在一个常数均值上下随机波动的情况,无趋势及季节要素。(2)双指数平滑(一个参数)这种方法是将单指数平滑进行两次(使用相同的参数)。适用于有线性趋势的序列。(3)Holt-Winters—无季节趋势(两个参数)这种方法适用于具有线性时间趋势、无季节变差的情形。这种方法与双指数平滑法一样以线性趋势无季节成分进行预测。双指数平滑法只用了一个参数,这种方法用两个参数。(4)Holt-Winters加法模型(三个参数)该方法适用于具有线性时间趋势和加法模型的季节变差。(5)Holt-Winters乘法模型该方法适用于具有线性时间趋势和乘法模型的季节变差24.在机器学习中,常用的分类方法有哪些?监督学习:1.K近邻2.回归3.支持向量机回归(SVM)4.决策树5.朴素贝叶斯6.人工神经网络非监督学习:1.聚类2.Apriori3.FP-growth25.举例说明决策树的基本思想及其优势。基本思想:决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶节点处的熵值为零,此时每个叶节点中的实例都属于同一类。优点:1决策树模型可以读性好,具有描述性,有助于人工分析;2效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。26.交叉验证的基本思想是什么?常见的交叉验证方法有哪些?基本思想:将原始数据进行分组,一部分做为训练集(trainset),另一部分做为验证集(validationset)。首先,用训练集进行训练,然后,利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标。主要分类:Hold-Out方法、K折交叉验证、留一交叉验证27.结合图形,解释Adaboost和Bagging方法的原理,并比较二者的区别。AdaBoost算法原理:boosting提升法的一种特例,试试调节抽样权重的过程bagging回归的做法:不断放回地对训练样本进行再抽样,样本量和原来样本量相同;9对每个自助样本都建立一棵回归树;对于每一个观测,每棵树给一个预测;将这些值进行投票(分类问题)或者求平均值(回归问题)作为最终的预测值。AdaBoost和bagging都是在若干分类器基础上的一种集成算法,区别在于,如果一个训练样本在前一个分类器中分类犯错,那么在下一次抽样过程中,它的权重会被加重;相应地,被正确分类的样本的权重会下降。1028.比较随机森林分类算法和决策树算法的区别,解释随机森林的原理。变量又进行了随机抽样原理:从样本集中用自助法选出n个样本;选择最佳分割属性作为节点建立决策树。这些决策树的每一个树节点的分割变量不是由所有的自变量竞争产生的,而是从随机选取的少数变量中产生的。重复以上两步m次,即建立了m棵决策树。这m个决策树形成随机森林,通过投票表决结果,决定数据属于哪一类。随机森林的特点:决策树的样本是随机的,每棵树的每个节点的产生也是随机的。29.结合图形,解释支持向量机(SVM)方法的原理。把图弄明白找出两块边界,最宽的平行线上的点叫支持向量在线性可分情况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。其次,它通过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间的期望风险以某个概率满足一定上界。30.Bootstrap的定义。11bootstap(自助、自举、鞋襻):一种从给定训练集中等概率、有放回的进行重复抽样,也就是说,每当选中一个样本,它等可能地被再次选中,并被再次添加到训练集中。31.结构方程模型。关于结构方程模型的内容,请认真学习两个案例“超市满意度模型”和“收入满意度模型”。画出两个图,标准化和非标准化的结果图,并给出部分文本输出结果:个体状况亲友满意.77e11.001家庭满意.46e21.201个性满意.23e31.881社会状况地位满意.25e4公正满意2.32e5收入满意2.30e61.0011.2111.121收入状况期望收入1876.55e7资产2360.1